Método de máxima verosimilitud frente al método de mínimos cuadrados

42

¿Cuál es la principal diferencia entre la estimación de máxima verosimilitud (MLE) frente a la estimación de mínimos cuadrados (LSE)?

¿Por qué no podemos usar MLE para predecir valores de en regresión lineal y viceversa?y

Cualquier ayuda sobre este tema será muy apreciada.

evros
fuente
8
Puede usar MLE en regresión lineal si lo desea. Esto incluso puede tener sentido si la distribución del error no es normal y su objetivo es obtener la estimación "más probable" en lugar de una que minimice la suma de los cuadrados.
Richard Hardy
16
Bajo el supuesto de error normal, como se supone típicamente en la regresión lineal, ¡el MLE y el LSE son iguales!
TrynnaDoStat
1
Busque en nuestro sitio el teorema de Gauss-Markov .
whuber
Gracias por todas las respuestas. Ahora esto tiene sentido. Mientras buscaba este tema en la red, me encontré con este artículo. Quizás esto también ayude: radfordneal.wordpress.com/2008/08/09/…
evros
1
También se proporciona una respuesta en stats.stackexchange.com/questions/12562/… .
whuber

Respuestas:

19

Me gustaría proporcionar una respuesta directa.

¿Cuál es la principal diferencia entre la estimación de máxima verosimilitud (MLE) y la estimación de mínimos cuadrados (LSE)?

Como comentó @ TrynnaDoStat, minimizar el error al cuadrado es equivalente a maximizar la probabilidad en este caso. Como se dijo en Wikipedia ,

En un modelo lineal, si los errores pertenecen a una distribución normal, los estimadores de mínimos cuadrados también son los estimadores de máxima verosimilitud.

se pueden ver igual en su caso,

Déjame detallarlo un poco. Como sabemos que la variable de respuesta ( y )

Yi=λ1Xi+λ2+ϵi where ϵN(0,σ2)
tiene un modelo de distribución de error normal, la función de probabilidad es, L ( Y 1 , , Y n ; λ 1 , λ 2 , σ 2 ) = 1
ingrese la descripción de la imagen aquí
L(Y1,,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(12σ2(i=1n(Yiλ1Xiλ2)2))
Obviamente, maximizar L es equivalente a minimizar
i=1n(Yiλ1Xiλ2)2
Eso es El método de los mínimos cuadrados.

¿Por qué no podemos usar MLE para predecir valores de y en regresión lineal y viceversa?

Como se explicó anteriormente, en realidad (de manera más precisa, equivalente) usamos el MLE para predecir los valores de y . Y si la variable de respuesta tiene distribuciones arbitrarias en lugar de una distribución normal, como la distribución de Bernoulli o cualquiera de la familia exponencial , asignamos el predictor lineal a la distribución de variable de respuesta usando una función de enlace (de acuerdo con la distribución de respuesta), entonces la función de probabilidad se convierte en El producto de todos los resultados (probabilidades entre 0 y 1) después de la transformación. Podemos tratar la función de enlace en la regresión lineal como la función de identidad (ya que la respuesta ya es una probabilidad).

Lerner Zhang
fuente
3
Es posible que desee definir "este caso" un poco más claramente ya que, en general, la máxima probabilidad y los mínimos cuadrados no son lo mismo.
Matthew Gunn
2
@MatthewGunn Sí, solía "equivalente a" que no sea "lo mismo".
Lerner Zhang
Sería genial si nos diera un ejemplo en el que el modelo lineal siga una distribución de error no normal, y cómo usa MLE en tal caso para estimar los mejores coeficientes. Si no es posible, al menos puede
señalarnos
12

L1L2

L2L2

  • espionaje de datos
  • parámetros estocásticos
  • limitaciones débiles

Las aplicaciones profesionales no solo se ajustan a los datos, sino que comprueban:

  • si el parámetro es significativo
  • si su conjunto de datos tiene valores atípicos
  • qué valor atípico se puede tolerar ya que no afecta el rendimiento
  • qué medida debe eliminarse ya que no contribuye al grado de libertades

También hay una gran cantidad de pruebas estadísticas especializadas para hipótesis. Esto no se aplica necesariamente a todos los estimadores de NM o al menos debe indicarse con una prueba.

L2

Xβ=L+r(XTX)1L2

No dude en solicitar detalles.

nali
fuente