¿Por qué los métodos de regresión de mínimos cuadrados y máxima verosimilitud no son equivalentes cuando los errores no se distribuyen normalmente?

11

El título lo dice todo. Entiendo que los mínimos cuadrados y la máxima verosimilitud darán el mismo resultado para los coeficientes de regresión si los errores del modelo se distribuyen normalmente. Pero, ¿qué sucede si los errores no se distribuyen normalmente? ¿Por qué los dos métodos ya no son equivalentes?

regression normal-distribution maximum-likelihood least-squares error Shuklaswag
fuente

¿Te refieres a (a) usar MLE cuando no se cumple el supuesto de normalidad, o (b) usar la función de probabilidad no gaussiana?

Tim

(a), cuando no se cumple el supuesto de normalidad

Shuklaswag

Incluso cuando no se cumple el supuesto (es decir, los valores observados no están distribuidos en Gauss) ... si calcula el MLE con el uso de la función de probabilidad Gaussiana, entonces hace lo mismo que la optimización de mínimos cuadrados. Los métodos de optimización son matemáticamente equivalentes e independientes de si la suposición de normalidad era correcta o no.

Sextus Empiricus

Incluso con distribuciones normales, los mínimos cuadrados imponen una varianza fija.

CodesInChaos

Consulte también esta pregunta relacionada: stats.stackexchange.com/questions/173621/…

kjetil b halvorsen

16

Respuesta corta

La densidad de probabilidad de una variable distribuida gaussiana multivariada , con media está relacionada con el cuadrado del euclídeo distancia entre la media y la variable ( ), o en otras palabras, la suma de los cuadrados. $x=(x_1, x_2,...,x_n)$ $\mu=(\mu_1,\mu_2,...,\mu_n)$ $\vert \mu-x \vert_2^2$

Respuesta larga

Si multiplica múltiples distribuciones gaussianas para sus errores, donde asume desviaciones iguales, entonces obtiene una suma de cuadrados. $n$

\begin{array}{cl} L (μ_{j}, x_{i j}) = P (x_{i j} | μ_{j}) & = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e x p [- \frac{(x_{i j} - μ_{i})^{2}}{2 σ^{2}}] \\ = {(\frac{1}{\sqrt{2 π σ^{2}}})}^{n} e x p [- \frac{\sum_{i = 1}^{n} (x_{i j} - μ_{i})^{2}}{2 σ^{2}}] \end{array}

$\begin{array} \mathcal{L(\mu_j,x_{ij})} = P(x_{ij} \vert \mu_j) & =\prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} exp\left[-\frac{(x_{ij}-\mu_i)^2}{2\sigma^2}\right] \\ &= \left(\frac{1}{\sqrt{2 \pi \sigma^2}} \right)^n exp \left[ -\frac{\sum_{i=1}^n(x_{ij}-\mu_i)^2}{2\sigma^2}\right] \end{array}$

o en la forma logarítmica conveniente:

\log (L (μ_{j}, x_{i j})) = n \log (\frac{1}{\sqrt{2 π σ^{2}}}) - \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i j} - μ_{j})^{2}

$\log\left(\mathcal{L(\mu_j,x_{ij})} \right) = n \log \left( \frac{1}{\sqrt{2 \pi \sigma^2}} \right) -\frac{1}{2\sigma^2} \sum_{i=1}^n(x_{ij}-\mu_j)^2$

Entonces, optimizar la para minimizar la suma de los cuadrados es igual a maximizar la probabilidad (log) (es decir, el producto de múltiples distribuciones gaussianas o la distribución gaussiana multivariada). $\mu$

Es este cuadrado anidado de la diferencia dentro de la estructura exponencial, , que otras distribuciones no tienen. $(\mu-x)$ $exp\left[ (x_i-\mu)^2 \right]$

Compare, por ejemplo, con el caso de las distribuciones de Poisson

\log (L) = \log (\prod \frac{μ_{j}^{x_{i j}}}{x_{i j}!} e x p [- μ_{j}]) = - \sum μ_{j} - \sum l o g (x_{i j}!) + \sum l o g (μ_{j}) x_{i j}

$\log(\mathcal{L}) = \log \left( \prod\frac{\mu_j^{x_{ij}}}{x_{ij}!} exp \left[ -\mu_j \right] \right) = -\sum \mu_j -\sum log(x_{ij}!) + \sum log(\mu_j) x_{ij}$

que tiene un máximo cuando se minimiza lo siguiente:

\sum μ_{j} - l o g (μ_{j}) x_{i j}

$\sum \mu_j -log(\mu_j) x_{ij}$

que es una bestia diferente

Además (historia)

La historia de la distribución normal (ignorando que deMoivre llega a esta distribución como una aproximación a la distribución binomial) es en realidad como el descubrimiento de la distribución que hace que el MLE corresponda al método de mínimos cuadrados (en lugar de que el método de mínimos cuadrados sea un método que puede expresar el MLE de la distribución normal, primero vino el método de mínimos cuadrados, segundo vino la distribución gaussiana)

Tenga en cuenta que a Gauss, al conectar el 'método de máxima verosimilitud' con el 'método de mínimos cuadrados', se le ocurrió la 'distribución gaussiana', , como la única distribución de errores que nos lleva a Haga esta conexión entre los dos métodos. $e^{-x^2}$

De la traducción de Charles Henry Davis (Teoría del movimiento de los cuerpos celestes que se mueven alrededor del sol en secciones cónicas. Una traducción del "Motivo Theoria" de Gauss, con un apéndice) ...

Gauss define:

Por consiguiente, la probabilidad de ser asignada a cada error se expresará mediante una función de que denotaremos por . $\Delta$ $\Delta$ $\psi \Delta$

^{(Cursiva hecha por mí)}

Y continúa ( en la sección 177 pp. 258 ):

... de donde se deduce fácilmente que debe ser una cantidad constante. que denotaremos por . Por lo tanto, tenemos denota la base de los logaritmos hiperbólicos por y suponiendo $\frac{\psi^\prime\Delta}{\Delta}$ $k$
$log ψ Δ = \frac{1}{2} k Δ Δ + Constant$ $\text{log } \psi \Delta = \frac{1}{2} k \Delta \Delta + \text{Constant}$ $ψ Δ = x e^{\frac{1}{2} k Δ Δ}$ $\psi \Delta = x e^{\frac{1}{2}k \Delta \Delta}$ $e$ $Constant = \log x$ $\text{Constant} = \log x$

terminando (después de la normalización y realizando ) en $k<0$

$ψ Δ = \frac{h}{\sqrt{π}} e^{- h h Δ Δ}$ $\psi \Delta = \frac{h}{\sqrt{\pi}} e^{-hh\Delta \Delta}$

Escrito por StackExchangeStrike

Sexto empírico
fuente

¿Recuerdas de dónde obtuviste este conocimiento? ¿Te importaría agregar la fuente a tu publicación? (Me está costando encontrar un libro de texto que explique esto bien)

Joooeey,

@Joooeey He agregado el título de la fuente para las citas traducidas de Gauss, así como un enlace a una de las muchas fuentes en línea. Este texto original es pesado, pero debe encontrar tratados más ligeros en cualquier descripción de la historia de la distribución normal.

Sextus Empiricus

Las funciones de probabilidad están apareciendo en muchos lugares. Si busca fuentes de donde obtuve este 'conocimiento', supongo que podría decir el artículo de Pearson de 1900 sobre la prueba de chi-cuadrado donde la distribución normal multivariada se trata geométricamente. Fisher también usó representaciones geométricas varias veces (hay, por ejemplo, este artículo en los años 20, sobre la eficiencia de las estimaciones, donde compara el error cuadrático medio y el error absoluto medio y donde habla de superficies en un hiperespacio).

Sextus Empiricus

@Joooeey He hecho una referencia a ese artículo de Fisher antes aquí . Y mi respuesta aquí usa un punto de vista geométrico para derivar una propiedad de la distribución t que también se relaciona con Fisher (creo que el artículo donde prueba la distribución t de Gosset o tal vez un artículo un poco posterior).

Sextus Empiricus

5

Porque el MLE se deriva de la suposición de residuos distribuidos normalmente.

Tenga en cuenta que

{min}_{β} ‖ X β - y ‖^{2}

$\text{min}_\beta~~ \|X \beta - y \|^2$

No tiene un significado probabilístico : solo encuentra el que minimiza la función de pérdida al cuadrado. Todo es determinista y no hay componentes aleatorios allí. $\beta$

Donde el concepto de probabilidad y probabilidad viene, suponemos

y = X β + ϵ

$y=X\beta + \epsilon$

Donde estamos considerando como una variable aleatoria, y se distribuye normalmente. $y$ $\epsilon$

Haitao Du
fuente

@Matthew Drury, ¿por qué cambiar la notación matricial y agregar el signo de suma?

Haitao Du

Pensé que sería claro, pero si usted afirma que una declaración no tiene un significado probalístico, no puede usar una expresión con símbolos que se interpreten mejor como variables aleatorias. El problema de optimización que está refiriendo está relacionado con datos fijos, lo expliqué explícitamente.

Matthew Drury

5

Los mínimos cuadrados y el ajuste de probabilidad máximo (gaussiano) son siempre equivalentes. Es decir, se minimizan por el mismo conjunto de coeficientes.

Cambiar la suposición sobre los errores cambia su función de probabilidad (maximizar la probabilidad de un modelo es equivalente a maximizar la probabilidad del término de error) y, por lo tanto, la función ya no se minimizará con el mismo conjunto de coeficientes.

Entonces, en la práctica, los dos son iguales, pero en teoría, cuando maximizas una probabilidad diferente, obtendrás una respuesta diferente que los mínimos cuadrados

Sam
fuente

"o siempre equivalente"?

nbro

0

Un ejemplo concreto: supongamos que tomamos una función de error simple p (1) =. 9, p (-9) = .10. Si tomamos dos puntos, entonces LS solo tomará la línea a través de ellos. ML, por otro lado, supondrá que ambos puntos son una unidad demasiado alta y, por lo tanto, tomará la línea a través de los puntos desplazados hacia abajo en la unidad.

Acumulacion
fuente

2

Tu ejemplo no está claro; en particular, es difícil ver qué modelo está tratando de describir o por qué ML produciría el resultado que usted reclama. ¿Podrías dar más detalles en esta respuesta?

whuber

El modelo es que y = mx + b + error, donde el error tiene una probabilidad del 90% de ser +1 y una probabilidad del 10% de ser -9. Dado cualquier punto observado, el punto verdadero tiene una probabilidad del 90% de estar una unidad por debajo y una probabilidad del 10% de estar nueve unidades por encima. Por lo tanto, ML da que el punto verdadero es una unidad por debajo. ¿Qué no entiendes de esto?

Acumulación

2

Su comentario es útil, pero su respuesta aún no describe el modelo de manera clara o comprensible. ¿Podría incorporar esa explicación en la respuesta misma? Es un buen ejemplo.

whuber

¿Por qué los métodos de regresión de mínimos cuadrados y máxima verosimilitud no son equivalentes cuando los errores no se distribuyen normalmente?

Respuestas:

Respuesta corta

Respuesta larga

Además (historia)