La pérdida de L2, junto con la pérdida de L0 y L1, son tres funciones de pérdida "por defecto" muy comunes que se utilizan al resumir una pérdida posterior posterior mínima esperada. Una razón para esto es quizás que son relativamente fáciles de calcular (al menos para distribuciones 1d), L0 da como resultado el modo, L1 en la mediana y L2 da como resultado la media. Al enseñar, puedo encontrar escenarios en los que L0 y L1 son funciones de pérdida razonables (y no solo "predeterminadas"), pero estoy luchando con un escenario en el que L2 sería una función de pérdida razonable. Entonces mi pregunta:
Para fines pedagógicos, ¿cuál sería un ejemplo de cuando L2 es una buena función de pérdida para calcular una pérdida posterior mínima?
Para L0 es fácil encontrar escenarios de apuestas. Supongamos que calculó un posterior sobre el número total de goles en un próximo partido de fútbol y que va a hacer una apuesta en la que gana $$$ si adivina correctamente el número de goles y pierde de lo contrario. Entonces L0 es una función de pérdida razonable.
Mi ejemplo L1 es un poco artificial. Te encuentras con una amiga que llegará a uno de los muchos aeropuertos y luego viajará a ti en automóvil, el problema es que no sabes qué aeropuerto (y no puedes llamar a tu amiga porque está en el aire). Dado un posterior sobre el aeropuerto en el que podría aterrizar, ¿dónde es un buen lugar para posicionarse de modo que la distancia entre ella y usted sea pequeña cuando llegue? Aquí, el punto que minimiza la pérdida esperada de L1 parece razonable, si se hacen las suposiciones simplificadoras de que su automóvil viajará a velocidad constante directamente a su ubicación. Es decir, una espera de una hora es el doble de malo que una espera de 30 minutos.
fuente
Respuestas:
L2 es "fácil". Es lo que obtienes por defecto si haces métodos estándar de matriz como regresión lineal, SVD, etc. Hasta que teníamos computadoras, L2 era el único juego en la ciudad para muchos problemas, por lo que todos usan ANOVA, pruebas t, etc. También es más fácil obtener una respuesta exacta usando la pérdida de L2 con muchos métodos más sofisticados como los procesos gaussianos que obtener una respuesta exacta usando otras funciones de pérdida.
De manera relacionada, puede obtener la pérdida L2 exactamente usando una aproximación de Taylor de segundo orden, que no es el caso para la mayoría de las funciones de pérdida (por ejemplo, entropía cruzada). Esto facilita la optimización con métodos de segundo orden como el método de Newton. Muchos métodos para lidiar con otras funciones de pérdida todavía usan métodos para pérdida de L2 bajo el capó por la misma razón (por ejemplo, mínimos cuadrados repesados iterativamente, aproximaciones de Laplace anidadas integradas).
L2 está estrechamente relacionado con las distribuciones gaussianas, y el Teorema del límite central hace que las distribuciones gaussianas sean comunes. Si su proceso de generación de datos es (condicionalmente) gaussiano, entonces L2 es el estimador más eficiente.
La pérdida de L2 se descompone muy bien, debido a la ley de la varianza total. Eso hace que ciertos modelos gráficos con variables latentes sean especialmente fáciles de ajustar.
L2 penaliza predicciones terribles desproporcionadamente. Esto puede ser bueno o malo, pero a menudo es bastante razonable. Una espera de una hora puede ser cuatro veces más mala que una espera de 30 minutos, en promedio, si hace que muchas personas pierdan sus citas.
fuente