Entonces me hicieron una pregunta sobre qué medidas centrales L1 (es decir, lazo) y L2 (es decir, regresión de cresta) estimaron. La respuesta es L1 = mediana y L2 = media. ¿Hay algún tipo de razonamiento intuitivo para esto? ¿O tiene que determinarse algebraicamente? Si es así, ¿cómo hago para hacer eso?
24
Respuestas:
Hay una explicación geométrica simple de por qué la función de pérdida L1 produce la mediana.
Recuerde que estamos trabajando en una dimensión, así que imagine una línea numérica que se extienda horizontalmente. Trace cada uno de los puntos de datos en la recta numérica. Pon tu dedo en algún lugar de la línea; su dedo será su estimado candidato actual.
Supongamos que mueve su dedo un poco hacia la derecha, digamos unidades a la derecha. ¿Qué pasa con la pérdida total? Bueno, si su dedo estaba entre dos puntos de datos y lo mueve a través de un punto de datos, ha aumentado la pérdida total en para cada punto de datos a la izquierda de su dedo, y la ha disminuido en para cada dato apunte a la derecha de su dedo. Entonces, si hay más puntos de datos a la derecha del dedo que a la izquierda, mover el dedo hacia la derecha disminuye la pérdida total. En otras palabras, si más de la mitad de los puntos de datos están a la derecha de su dedo, debe moverlo hacia la derecha.δ δδ δ δ
Esto lleva a mover el dedo hacia un punto donde la mitad de los puntos de datos están en ese punto y la otra mitad a la derecha. Ese lugar es la mediana.
Esa es L1 y la mediana. Desafortunadamente, no tengo una explicación similar, "toda intuición, sin álgebra" para L2 y la media.
fuente
Esta explicación es un resumen de los comentarios de muratoa e Yves sobre la respuesta de DW. Aunque se basa en el cálculo, lo encontré sencillo y fácil de entender.
Suponiendo que tenemos y queremos obtener una nueva estimación basada en ellos. La pérdida más pequeña se obtiene cuando encontramos que hace que la derivada de la pérdida sea cero. β βy1, y2, . . . yk β β
Pérdida L1
∂L1
Pérdida de L2
∂L2
Entonces, para minimizar la pérdida de L2, debería ser la media de .
fuente
Agregando a la respuesta de DW con un ejemplo aún más práctico (también para la función de pérdida L2):
Imagine un pequeño pueblo formado por 4 casas cercanas entre sí (por ejemplo, 10 metros). A 1 kilómetro de ellos, tiene otra casa muy aislada. Ahora, llegas a esa ciudad y quieres construir tu propia casa en algún lugar. Desea vivir cerca de las otras casas y ser amigo de todos. Considere esos dos escenarios alternativos:
Decide estar en el lugar donde la distancia promedio a cualquier casa es la más pequeña (es decir, minimizar una función de pérdida L1).
Entonces, la distancia promedio más baja de 100 metros se alcanza construyendo su casa en el pueblo. Más específicamente, construirá su casa en el medio de estas 4 casas para ganar unos metros más de distancia promedio. Y resulta que este punto es el " punto medio ", que habría obtenido de manera similar utilizando la fórmula mediana.
Entonces, sí, es interesante notar que, un poco contra-intuitivamente, cuando minimizamos la suma de las distancias, no terminamos en el "medio" en el sentido de la media, sino en el sentido de la mediana. Esta es parte de la razón por la cual OLS, uno de los modelos de regresión más populares, utiliza errores al cuadrado en lugar de errores absolutos.
fuente
Además de las respuestas ya publicadas (¡que me han sido muy útiles!), Hay una explicación geométrica de la conexión entre la norma L2 y la media.
Para usar la misma notación que chefwen , la fórmula para la pérdida de L2 es:
Deseamos encontrar el valor de que minimiza . Tenga en cuenta que esto es equivalente a minimizar lo siguiente, ya que multiplicar por y tomar la raíz cuadrada conservan el orden:L 2 kβ L 2 k
Si considera el vector de datos como un punto en el espacio -dimensional, esta fórmula calcula la distancia euclidiana entre el punto el punto .y k y β⃗ = ( β, β, . . . , β)
Entonces, el problema es encontrar el valor que minimiza la distancia euclidiana entre los puntos y . Dado que todos los valores posibles de encuentran en la línea paralela a por definición, esto es equivalente a encontrar la proyección vectorial de sobre .β y β⃗ β⃗ 1⃗ = ( 1 , 1 , . . . , 1 ) y 1⃗
Solo es realmente posible visualizar esto cuando , pero aquí hay un ejemplo donde . Como se muestra, proyectar en produce como esperamos.k = 2 y= ( 2 , 6 ) 1⃗ ( 4 , 4 )
Para mostrar que esta proyección siempre produce la media (incluso cuando ), podemos aplicar la fórmula para la proyección :k > 2
fuente