Equivalencia entre mínimos cuadrados y MLE en el modelo gaussiano

26

Soy nuevo en Machine Learning y estoy tratando de aprenderlo por mi cuenta. Recientemente estaba leyendo algunas notas de clase y tenía una pregunta básica.

La diapositiva 13 dice que "La estimación de mínimos cuadrados es igual a la estimación de máxima verosimilitud bajo un modelo gaussiano". Parece que es algo simple, pero no puedo ver esto. ¿Alguien puede explicar qué está pasando aquí? Estoy interesado en ver las matemáticas.

Más adelante intentaré ver también el punto de vista probabilístico de la regresión de Ridge y Lasso, así que si hay alguna sugerencia que me ayude, eso también será muy apreciado.

Andy
fuente
44
La función objetivo en la parte inferior de la p. 13 es solo un múltiplo constante ( ) de la función objetivo en la parte inferior de p. 10. MLE minimiza el primero, mientras que los mínimos cuadrados minimiza el segundo, QED. n
whuber
@whuber: Gracias por tu respuesta. Bueno, lo que quería saber es cómo es que MLE está haciendo la minimización.
Andy
¿Te refieres a la mecánica o conceptualmente?
whuber
@whuber: ¡Ambos! Si pudiera ver esa matemática, eso también ayudaría.
Andy
1
El enlace está roto; La falta de una referencia completa y más contexto para la cita hace que sea difícil eliminar la referencia o localizar una fuente alternativa para ella. ¿Es suficiente la diapositiva 13 de este enlace? --- cs.cmu.edu/~epxing/Class/10701-10s/recitation/recitation3.pdf
Glen_b -Reinstate Monica

Respuestas:

29

En el modelo

Y=Xβ+ϵ

donde , la verosimilitud de Y | X para una muestra de n sujetos es (hasta una constante aditiva)ϵN(0,σ2)Y|Xn

n2log(σ2)12σ2i=1n(yixiβ)2

visto como una función de solo , el maximizador es exactamente el que minimizaβ

i=1n(yixiβ)2

¿Esto aclara la equivalencia?

Macro
fuente
Esto es precisamente lo que está en las diapositivas a las que se hace referencia en el OP
whuber
3
Sí, lo veo, pero en realidad no escriben la probabilidad de registro gaussiana en la página 13, lo que, después de hacerlo, hace que sea obvio que su argmax es la misma que la argmin de los criterios de OLS, por lo que pensé que esta era una adición valiosa.
Macro
Buen punto: la diapositiva es un poco incompleta con los detalles.
whuber
77
Ha aprendido que, si sabe que los errores se distribuyen normalmente alrededor de la línea de regresión, entonces el estimador de mínimos cuadrados es "óptimo" en algún sentido, aparte de decretar arbitrariamente que es mejor "mínimos cuadrados". Con respecto a la regresión de cresta, esta solución es equivalente (si usted es bayesiano) al estimador de mínimos cuadrados cuando se coloca un previo gaussiano en elβ's. En un mundo frecuentista es equivalente aL2mínimos cuadrados penalizados. Los coeficientes de regresión logística no son la solución a un problema de mínimos cuadrados, por lo que no sería análogo.
Macro
1
La constante aditiva esn/2 log(2 *pi)
SmallChess