Relación entre MLE y mínimos cuadrados en caso de regresión lineal

9

Hastie y Tibshirani mencionan en la sección 4.3.2 de su libro que en la configuración de regresión lineal, el enfoque de mínimos cuadrados es, de hecho, un caso especial de máxima verosimilitud. ¿Cómo podemos probar este resultado?

PD: no ahorres detalles matemáticos.

Pradnyesh Joshi
fuente
2
No es un caso especial: son idénticos cuando la distribución del error es normal.
Zhanxiong

Respuestas:

13

El modelo de regresión lineal.

ϵ N ( 0 , I σ 2 )Y=Xβ+ϵ , dondeϵN(0,Iσ2)

X R n × p β R pYRn , yXRn×pβRp

Tenga en cuenta que nuestro error de modelo (residual) es . Nuestro objetivo es encontrar un vector de s que minimice la norma cuadrado de este error. β L 2ϵ=YXββL2

Mínimos cuadrados

Dados los datos donde cada es dimensional, buscamos encontrar:x i p(x1,y1),...,(xn,yn)xip

β^LS=argminβ||ϵ||2=argminβ||YXβ||2=argminβi=1n(yixiβ)2

Máxima verosimilitud

Usando el modelo anterior, podemos configurar la probabilidad de los datos dados los parámetros como:β

L(Y|X,β)=i=1nf(yi|xi,β)

donde es el pdf de una distribución normal con media 0 y varianza . Enchufarlo:f(yi|xi,β)σ2

L(Y|X,β)=i=1n12πσ2e(yixiβ)22σ2

Ahora, generalmente, cuando se trata de probabilidades, es matemáticamente más fácil tomar el registro antes de continuar (los productos se convierten en sumas, los exponenciales desaparecen), así que hagamos eso.

logL(Y|X,β)=i=1nlog(12πσ2)(yixiβ)22σ2

Dado que queremos la estimación de máxima verosimilitud, queremos encontrar el máximo de la ecuación anterior, con respecto a . El primer término no afecta nuestra estimación de , por lo que podemos ignorarlo:ββ

β^MLE=argmaxβi=1n(yixiβ)22σ2

Tenga en cuenta que el denominador es una constante con respecto a . Finalmente, observe que hay un signo negativo delante de la suma. Entonces encontrar el máximo de un número negativo es como encontrar el mínimo sin el negativo. En otras palabras:β

β^MLE=argminβi=1n(yixiβ)2=β^LS

Recuerde que para que esto funcione, tuvimos que hacer ciertas suposiciones del modelo (normalidad de los términos de error, media 0, varianza constante). Esto hace que los mínimos cuadrados sean equivalentes a MLE bajo ciertas condiciones. Ver aquí y aquí para más discusión.

Para completar, tenga en cuenta que la solución se puede escribir como:

β=(XTX)1XTy
ilanman
fuente