¿Por qué las funciones de costo usan el error cuadrado?

73

Recién estoy comenzando con algo de aprendizaje automático, y hasta ahora he estado lidiando con la regresión lineal sobre una variable.

He aprendido que hay una hipótesis, que es:

hθ(x)=θ0+θ1x

Para encontrar buenos valores para los parámetros y θ 1 , queremos minimizar la diferencia entre el resultado calculado y el resultado real de nuestros datos de prueba. Entonces restamosθ0θ1

hθ(x(i))y(i)

para todo de 1 a m . Por lo tanto, calculamos la suma sobre esta diferencia y luego calculamos el promedio multiplicando la suma por 1i1m . Hasta aquí todo bien. Esto resultaría en:1m

1mi=1mhθ(x(i))y(i)

Pero esto no es lo que se ha sugerido. En cambio, el curso sugiere tomar el valor cuadrado de la diferencia y multiplicar por . Entonces la fórmula es:12m

12mi=1m(hθ(x(i))y(i))2

¿Porqué es eso? ¿Por qué usamos la función cuadrada aquí y por qué multiplicamos por lugar de112m ?1m

Golo Roden
fuente
3
Pregunta relacionada en stats.stackexchange.com
user1205197
También eche un vistazo a la explicación de Chris McCormick en goo.gl/VNiUR5
vimdude
porque es una divergencia Bregman
Andrew

Respuestas:

41

θ1θ0

r(x,y)=1mi=1mhθ(x(i))yh

r

Θ|θ0|<10

¿Por qué usamos la pérdida cuadrada?

h(x)yu=v0uv

|uv|(uv)2nn12

Entonces, ¿por qué la pérdida al cuadrado es mejor que estas? Esta es una pregunta profunda relacionada con el vínculo entre la inferencia frecuenta y bayesiana . En resumen, el error al cuadrado se relaciona con el ruido gaussiano .

h(x)yθ h yθR=h(X)YyN(μ,σ)

μ=E[R]=1mihθ(X(i))Y(i))σ2=E[R2]=1mi(hθ(X(i))Y(i)))2

  • μh(x)=h(x)μμ=E[R]=0

  • σσ2=1mi(hθ(X(i))Y(i)))2

μ

Preguntas de seguimiento:

  • 1|xμ|(xμ)21

    • 1
  • hθH

12

mθ

  • 12

    • Al escribir código o algoritmos, generalmente nos preocupamos más por el gradiente, por lo que ayuda a mantenerlo conciso. Puede verificar el progreso simplemente verificando la norma del gradiente. La función de pérdida en sí misma a veces se omite del código porque se usa solo para la validación de la respuesta final.
  • mm

    • Me he encontrado con este problema antes: pruebo el código con un pequeño número de puntos y funciona bien, pero cuando lo prueba con todo el conjunto de datos hay pérdida de precisión y, a veces, sobre / subflujos, es decir, su gradiente se vuelve nano inf. Para evitar eso, simplemente normalice el número de puntos de datos wrt.
  • mλm

Duro
fuente
dijiste, "cuando tomas la derivada, la expresión es más bonita, porque el 2 cancela el 2 del término cuadrado". Pero, ¿por qué queremos tomar su derivada?
DrGeneral
Por lo general, optimizamos la pérdida mediante el descenso de gradiente, que requiere tomar la Derivada. No mencioné esto porque debería quedar claro por el contexto de esta pregunta.
Duro
1
Duro, perdona mi ingenuidad, pero ¿por qué no usar el valor absoluto en lugar del cuadrado?
Alexander Suraphel
1
El error absoluto también puede funcionar, pero en ese caso retrocederá a la mediana esperada en lugar de la media. Tome una pequeña lista de números y vea cómo la pérdida difiere al cambiar su estimación (tanto para el error al cuadrado como para el error absoluto)
Jan van der Vegt
@AlexanderSuraphel Perdón por la demora en responder :) He agregado una sección arriba para abordar eso
Harsh
25

El coeficiente 1/2 es simplemente por conveniencia; hace que la derivada, que es la función realmente optimizada, se vea mejor. El 1 / m es más fundamental; sugiere que estamos interesados ​​en el error cuadrático medio . Esto le permite hacer comparaciones justas al cambiar el tamaño de la muestra y evita el desbordamiento. Los optimizadores llamados "estocásticos" usan un subconjunto del conjunto de datos (m '<m). Cuando introduce un regularizador (un término aditivo para la función objetivo), el uso del factor 1 / m le permite usar el mismo coeficiente para el regularizador independientemente del tamaño de la muestra.

En cuanto a la pregunta de por qué el cuadrado y no simplemente la diferencia: ¿no quieres que los subestimados sean penalizados de manera similar a los sobreestimados? La cuadratura elimina el efecto del signo del error. Tomar el valor absoluto (norma L1) también lo hace, pero su derivada no está definida en el origen, por lo que requiere más sofisticación para su uso. La norma L1 tiene sus usos, así que tenlo en cuenta y quizás pregúntale al maestro si la va a cubrir.

Emre
fuente
44
L2LpL2
6

La medida de error en la función de pérdida es una 'distancia estadística'; en contraste con la comprensión popular y preliminar de la distancia entre dos vectores en el espacio euclidiano. Con 'distancia estadística' estamos tratando de mapear la 'disimilitud' entre el modelo estimado y el modelo óptimo al espacio euclidiano.

No existe una regla restrictiva con respecto a la formulación de esta 'distancia estadística', pero si la elección es apropiada, una reducción progresiva de esta 'distancia' durante la optimización se traduce en una estimación del modelo que mejora progresivamente. En consecuencia, la elección de 'distancia estadística' o medida de error está relacionada con la distribución de datos subyacente.

De hecho, hay varias medidas de distancia / error bien definidas para diferentes clases de distribuciones estadísticas. Es aconsejable seleccionar la medida de error en función de la distribución de los datos disponibles. Sucede que la distribución gaussiana es omnipresente y, en consecuencia, su medida de distancia asociada, la norma L2 es la medida de error más popular. Sin embargo, esto no es una regla y existen datos del mundo real para los cuales una implementación de optimización 'eficiente' * adoptaría una medida de error diferente a la norma L2.

Considere el conjunto de divergencias de Bregman . La representación canónica de esta medida de divergencia es la norma L2 (error al cuadrado). También incluye la entropía relativa (divergencia Kullback-Liebler), la distancia euclidiana generalizada (métrica de Mahalanobis) y la función Itakura-Saito. Puede leer más al respecto en este documento sobre Divergencia funcional de Bregman y Estimación bayesiana de distribuciones .

Para llevar: la norma L2 tiene un conjunto interesante de propiedades que la convierte en una opción popular para la medición de errores (otras respuestas aquí han mencionado algunas de estas, suficientes para el alcance de esta pregunta), y el error al cuadrado será el apropiado elección la mayor parte del tiempo. Sin embargo, cuando la distribución de datos lo requiere, hay medidas de error alternativas para elegir, y la elección depende en gran medida de la formulación de la rutina de optimización.

* La medida de error 'apropiada' haría que la función de pérdida sea convexa para la optimización, lo cual es muy útil, a diferencia de alguna otra medida de error en la que la función de pérdida no sea convexa y, por lo tanto, sea notoriamente difícil.

Polvo de estrellas dinámico
fuente
5

Además de los puntos clave hechos por otros, el uso del error al cuadrado pone un mayor énfasis en el error más grande (¿qué sucede con 1/2 cuando lo cuadras frente a 3/2?).

Tener un algoritmo que mueva los errores fraccionarios, que probablemente resultaría en una clasificación correcta o una diferencia muy pequeña entre la estimación y la verdad básica, si se deja solo cerca de cero, mientras que deja los errores grandes como errores grandes o clasificaciones erróneas, no es una característica deseable de Un algoritmo.

El uso del error al cuadrado utiliza el error como un peso de importancia implícito para ajustar la predicción.

bobv
fuente
Entonces
3

En su formulación, intenta obtener la desviación media de su aproximación a partir de los datos observados.

Si el valor medio de su aproximación es cercano o igual al valor medio de los datos observados (algo que es deseable y a menudo sucede con muchos esquemas de aproximación), entonces el resultado de su formulación sería cero o insignificante, porque los errores positivos compensan con los negativos errores Esto podría llevar a la conclusión de que su aproximación es maravillosa en cada muestra observada, mientras que podría no ser el caso. Es por eso que usa el cuadrado del error en cada muestra y los suma (su turno es positivo).

Por supuesto, esta es solo una solución posible, ya que podría haber utilizado la norma L1 (valor absoluto del error en cada muestra) o muchas otras, en lugar de la norma L2.

W641
fuente