El título lo dice todo. Entiendo que los mínimos cuadrados y la máxima verosimilitud darán el mismo resultado para los coeficientes de regresión si los errores del modelo se distribuyen normalmente. Pero, ¿qué sucede si los errores no se distribuyen normalmente? ¿Por qué los dos métodos ya no son equivalentes?
11
Respuestas:
Respuesta corta
La densidad de probabilidad de una variable distribuida gaussiana multivariada , con media está relacionada con el cuadrado del euclídeo distancia entre la media y la variable ( ), o en otras palabras, la suma de los cuadrados.x=(x1,x2,...,xn) μ=(μ1,μ2,...,μn) |μ−x|22
Respuesta larga
Si multiplica múltiples distribuciones gaussianas para sus errores, donde asume desviaciones iguales, entonces obtiene una suma de cuadrados.n
o en la forma logarítmica conveniente:
Entonces, optimizar la para minimizar la suma de los cuadrados es igual a maximizar la probabilidad (log) (es decir, el producto de múltiples distribuciones gaussianas o la distribución gaussiana multivariada).μ
Es este cuadrado anidado de la diferencia dentro de la estructura exponencial, , que otras distribuciones no tienen.(μ−x) exp[(xi−μ)2]
Compare, por ejemplo, con el caso de las distribuciones de Poisson
que tiene un máximo cuando se minimiza lo siguiente:
que es una bestia diferente
Además (historia)
La historia de la distribución normal (ignorando que deMoivre llega a esta distribución como una aproximación a la distribución binomial) es en realidad como el descubrimiento de la distribución que hace que el MLE corresponda al método de mínimos cuadrados (en lugar de que el método de mínimos cuadrados sea un método que puede expresar el MLE de la distribución normal, primero vino el método de mínimos cuadrados, segundo vino la distribución gaussiana)
Tenga en cuenta que a Gauss, al conectar el 'método de máxima verosimilitud' con el 'método de mínimos cuadrados', se le ocurrió la 'distribución gaussiana', , como la única distribución de errores que nos lleva a Haga esta conexión entre los dos métodos.e−x2
De la traducción de Charles Henry Davis (Teoría del movimiento de los cuerpos celestes que se mueven alrededor del sol en secciones cónicas. Una traducción del "Motivo Theoria" de Gauss, con un apéndice) ...
Gauss define:
Y continúa ( en la sección 177 pp. 258 ):
terminando (después de la normalización y realizando ) enk<0
Escrito por StackExchangeStrike
fuente
Porque el MLE se deriva de la suposición de residuos distribuidos normalmente.
Tenga en cuenta que
No tiene un significado probabilístico : solo encuentra el que minimiza la función de pérdida al cuadrado. Todo es determinista y no hay componentes aleatorios allí.β
Donde el concepto de probabilidad y probabilidad viene, suponemos
Donde estamos considerando como una variable aleatoria, y se distribuye normalmente.ϵy ϵ
fuente
Los mínimos cuadrados y el ajuste de probabilidad máximo (gaussiano) son siempre equivalentes. Es decir, se minimizan por el mismo conjunto de coeficientes.
Cambiar la suposición sobre los errores cambia su función de probabilidad (maximizar la probabilidad de un modelo es equivalente a maximizar la probabilidad del término de error) y, por lo tanto, la función ya no se minimizará con el mismo conjunto de coeficientes.
Entonces, en la práctica, los dos son iguales, pero en teoría, cuando maximizas una probabilidad diferente, obtendrás una respuesta diferente que los mínimos cuadrados
fuente
Un ejemplo concreto: supongamos que tomamos una función de error simple p (1) =. 9, p (-9) = .10. Si tomamos dos puntos, entonces LS solo tomará la línea a través de ellos. ML, por otro lado, supondrá que ambos puntos son una unidad demasiado alta y, por lo tanto, tomará la línea a través de los puntos desplazados hacia abajo en la unidad.
fuente