Recién estoy comenzando con algo de aprendizaje automático, y hasta ahora he estado lidiando con la regresión lineal sobre una variable.
He aprendido que hay una hipótesis, que es:
Para encontrar buenos valores para los parámetros y θ 1 , queremos minimizar la diferencia entre el resultado calculado y el resultado real de nuestros datos de prueba. Entonces restamos
para todo de 1 a m . Por lo tanto, calculamos la suma sobre esta diferencia y luego calculamos el promedio multiplicando la suma por 1 . Hasta aquí todo bien. Esto resultaría en:
Pero esto no es lo que se ha sugerido. En cambio, el curso sugiere tomar el valor cuadrado de la diferencia y multiplicar por . Entonces la fórmula es:
¿Porqué es eso? ¿Por qué usamos la función cuadrada aquí y por qué multiplicamos por lugar de1 ?
fuente
Respuestas:
¿Por qué usamos la pérdida cuadrada?
Entonces, ¿por qué la pérdida al cuadrado es mejor que estas? Esta es una pregunta profunda relacionada con el vínculo entre la inferencia frecuenta y bayesiana . En resumen, el error al cuadrado se relaciona con el ruido gaussiano .
Preguntas de seguimiento:
nan
oinf
. Para evitar eso, simplemente normalice el número de puntos de datos wrt.fuente
El coeficiente 1/2 es simplemente por conveniencia; hace que la derivada, que es la función realmente optimizada, se vea mejor. El 1 / m es más fundamental; sugiere que estamos interesados en el error cuadrático medio . Esto le permite hacer comparaciones justas al cambiar el tamaño de la muestra y evita el desbordamiento. Los optimizadores llamados "estocásticos" usan un subconjunto del conjunto de datos (m '<m). Cuando introduce un regularizador (un término aditivo para la función objetivo), el uso del factor 1 / m le permite usar el mismo coeficiente para el regularizador independientemente del tamaño de la muestra.
En cuanto a la pregunta de por qué el cuadrado y no simplemente la diferencia: ¿no quieres que los subestimados sean penalizados de manera similar a los sobreestimados? La cuadratura elimina el efecto del signo del error. Tomar el valor absoluto (norma L1) también lo hace, pero su derivada no está definida en el origen, por lo que requiere más sofisticación para su uso. La norma L1 tiene sus usos, así que tenlo en cuenta y quizás pregúntale al maestro si la va a cubrir.
fuente
La medida de error en la función de pérdida es una 'distancia estadística'; en contraste con la comprensión popular y preliminar de la distancia entre dos vectores en el espacio euclidiano. Con 'distancia estadística' estamos tratando de mapear la 'disimilitud' entre el modelo estimado y el modelo óptimo al espacio euclidiano.
No existe una regla restrictiva con respecto a la formulación de esta 'distancia estadística', pero si la elección es apropiada, una reducción progresiva de esta 'distancia' durante la optimización se traduce en una estimación del modelo que mejora progresivamente. En consecuencia, la elección de 'distancia estadística' o medida de error está relacionada con la distribución de datos subyacente.
De hecho, hay varias medidas de distancia / error bien definidas para diferentes clases de distribuciones estadísticas. Es aconsejable seleccionar la medida de error en función de la distribución de los datos disponibles. Sucede que la distribución gaussiana es omnipresente y, en consecuencia, su medida de distancia asociada, la norma L2 es la medida de error más popular. Sin embargo, esto no es una regla y existen datos del mundo real para los cuales una implementación de optimización 'eficiente' * adoptaría una medida de error diferente a la norma L2.
Considere el conjunto de divergencias de Bregman . La representación canónica de esta medida de divergencia es la norma L2 (error al cuadrado). También incluye la entropía relativa (divergencia Kullback-Liebler), la distancia euclidiana generalizada (métrica de Mahalanobis) y la función Itakura-Saito. Puede leer más al respecto en este documento sobre Divergencia funcional de Bregman y Estimación bayesiana de distribuciones .
Para llevar: la norma L2 tiene un conjunto interesante de propiedades que la convierte en una opción popular para la medición de errores (otras respuestas aquí han mencionado algunas de estas, suficientes para el alcance de esta pregunta), y el error al cuadrado será el apropiado elección la mayor parte del tiempo. Sin embargo, cuando la distribución de datos lo requiere, hay medidas de error alternativas para elegir, y la elección depende en gran medida de la formulación de la rutina de optimización.
* La medida de error 'apropiada' haría que la función de pérdida sea convexa para la optimización, lo cual es muy útil, a diferencia de alguna otra medida de error en la que la función de pérdida no sea convexa y, por lo tanto, sea notoriamente difícil.
fuente
Además de los puntos clave hechos por otros, el uso del error al cuadrado pone un mayor énfasis en el error más grande (¿qué sucede con 1/2 cuando lo cuadras frente a 3/2?).
Tener un algoritmo que mueva los errores fraccionarios, que probablemente resultaría en una clasificación correcta o una diferencia muy pequeña entre la estimación y la verdad básica, si se deja solo cerca de cero, mientras que deja los errores grandes como errores grandes o clasificaciones erróneas, no es una característica deseable de Un algoritmo.
El uso del error al cuadrado utiliza el error como un peso de importancia implícito para ajustar la predicción.
fuente
En su formulación, intenta obtener la desviación media de su aproximación a partir de los datos observados.
Si el valor medio de su aproximación es cercano o igual al valor medio de los datos observados (algo que es deseable y a menudo sucede con muchos esquemas de aproximación), entonces el resultado de su formulación sería cero o insignificante, porque los errores positivos compensan con los negativos errores Esto podría llevar a la conclusión de que su aproximación es maravillosa en cada muestra observada, mientras que podría no ser el caso. Es por eso que usa el cuadrado del error en cada muestra y los suma (su turno es positivo).
Por supuesto, esta es solo una solución posible, ya que podría haber utilizado la norma L1 (valor absoluto del error en cada muestra) o muchas otras, en lugar de la norma L2.
fuente