Método de máxima verosimilitud frente al método de mínimos cuadrados

¿Cuál es la principal diferencia entre la estimación de máxima verosimilitud (MLE) frente a la estimación de mínimos cuadrados (LSE)?

¿Por qué no podemos usar MLE para predecir valores de en regresión lineal y viceversa? $y$

Cualquier ayuda sobre este tema será muy apreciada.

regression estimation maximum-likelihood least-squares evros
fuente

Puede usar MLE en regresión lineal si lo desea. Esto incluso puede tener sentido si la distribución del error no es normal y su objetivo es obtener la estimación "más probable" en lugar de una que minimice la suma de los cuadrados.

Richard Hardy

Bajo el supuesto de error normal, como se supone típicamente en la regresión lineal, ¡el MLE y el LSE son iguales!

TrynnaDoStat

Busque en nuestro sitio el teorema de Gauss-Markov .

whuber

Gracias por todas las respuestas. Ahora esto tiene sentido. Mientras buscaba este tema en la red, me encontré con este artículo. Quizás esto también ayude: radfordneal.wordpress.com/2008/08/09/…

evros

También se proporciona una respuesta en stats.stackexchange.com/questions/12562/… .

whuber

Respuestas:

Me gustaría proporcionar una respuesta directa.

¿Cuál es la principal diferencia entre la estimación de máxima verosimilitud (MLE) y la estimación de mínimos cuadrados (LSE)?

Como comentó @ TrynnaDoStat, minimizar el error al cuadrado es equivalente a maximizar la probabilidad en este caso. Como se dijo en Wikipedia ,

En un modelo lineal, si los errores pertenecen a una distribución normal, los estimadores de mínimos cuadrados también son los estimadores de máxima verosimilitud.

se pueden ver igual en su caso,

Déjame detallarlo un poco. Como sabemos que la variable de respuesta ( $y$ )

Y_{i} = λ_{1} X_{i} + λ_{2} + ϵ_{i} where ϵ \sim N (0, σ^{2})

$Y_i=\lambda_1X_i+\lambda_2+\epsilon_i \quad\text{ where }\epsilon\thicksim N(0,\sigma^2)$ tiene un modelo de distribución de error normal, la función de probabilidad es,

ingrese la descripción de la imagen aquí

L (Y_{1}, \dots, Y_{n}; λ_{1}, λ_{2}, σ^{2}) = \frac{1}{(2 π)^{\frac{n}{2} σ^{n}}} e x p (\frac{- 1}{2 σ^{2}} (\sum_{i = 1}^{n} (Y_{i} - λ_{1} X_{i} - λ_{2})^{2}))

$L(Y_1,\dots,Y_n;\lambda_1,\lambda_2,\sigma^2)=\frac{1}{(2\pi)^{\frac{n}{2}\sigma^n}}exp(\frac{-1}{2\sigma^2}(\sum_{i=1}^n(Y_i-\lambda_1X_i-\lambda_2)^2))$ Obviamente, maximizar L es equivalente a minimizar

\sum_{i = 1}^{n} (Y_{i} - λ_{1} X_{i} - λ_{2})^{2}

$\sum_{i=1}^n(Y_i-\lambda_1X_i-\lambda_2)^2$ Eso es El método de los mínimos cuadrados.

¿Por qué no podemos usar MLE para predecir valores de $y$ en regresión lineal y viceversa?

Como se explicó anteriormente, en realidad (de manera más precisa, equivalente) usamos el MLE para predecir los valores de $y$ . Y si la variable de respuesta tiene distribuciones arbitrarias en lugar de una distribución normal, como la distribución de Bernoulli o cualquiera de la familia exponencial , asignamos el predictor lineal a la distribución de variable de respuesta usando una función de enlace (de acuerdo con la distribución de respuesta), entonces la función de probabilidad se convierte en El producto de todos los resultados (probabilidades entre 0 y 1) después de la transformación. Podemos tratar la función de enlace en la regresión lineal como la función de identidad (ya que la respuesta ya es una probabilidad).

Lerner Zhang
fuente

Es posible que desee definir "este caso" un poco más claramente ya que, en general, la máxima probabilidad y los mínimos cuadrados no son lo mismo.

Matthew Gunn

@MatthewGunn Sí, solía "equivalente a" que no sea "lo mismo".

Lerner Zhang

Sería genial si nos diera un ejemplo en el que el modelo lineal siga una distribución de error no normal, y cómo usa MLE en tal caso para estimar los mejores coeficientes. Si no es posible, al menos puede

señalarnos

$L_1$ $L_2$

$L_2$ $L_2$

espionaje de datos
parámetros estocásticos
limitaciones débiles

Las aplicaciones profesionales no solo se ajustan a los datos, sino que comprueban:

si el parámetro es significativo
si su conjunto de datos tiene valores atípicos
qué valor atípico se puede tolerar ya que no afecta el rendimiento
qué medida debe eliminarse ya que no contribuye al grado de libertades

También hay una gran cantidad de pruebas estadísticas especializadas para hipótesis. Esto no se aplica necesariamente a todos los estimadores de NM o al menos debe indicarse con una prueba.

$L_2$

$\mathbf{X\beta}=\mathbf{L}+\mathbf{r}$ $(\mathbf{X}^{T}\mathbf{X})^{-1}$ $L_2$

No dude en solicitar detalles.

nali
fuente