Esta pregunta parece lo suficientemente fundamental como para estar convencido de que se ha respondido aquí en alguna parte, pero no la he encontrado.
Entiendo que si la variable dependiente en una regresión se distribuye normalmente, la probabilidad máxima y los mínimos cuadrados ordinarios producen las mismas estimaciones de parámetros.
Cuando la variable dependiente no se distribuye normalmente, las estimaciones de los parámetros OLS ya no son equivalentes a MLE, pero siguen siendo las mejores estimaciones (imparcialidad) lineal imparcial (AZUL).
Entonces, ¿cuáles son las propiedades de MLE que lo hacen deseable más allá de lo que OLS tiene para ofrecer (ser AZUL)?
En otras palabras, ¿qué pierdo si no puedo decir que mis estimaciones de MCO son estimaciones de máxima probabilidad?
Para motivar un poco esta pregunta: me pregunto por qué querría elegir un modelo de regresión que no sea OLS en presencia de una variable dependiente claramente no normal.
fuente
Respuestas:
A medida que se aleja lo suficiente de la normalidad, todos los estimadores lineales pueden ser arbitrariamente malos .
Saber que puede obtener lo mejor de un lote malo (es decir, la mejor estimación imparcial lineal) no es mucho consuelo.
Si puede especificar un modelo de distribución adecuado ( ay, ahí está el problema ), maximizar la probabilidad tiene un atractivo intuitivo directo, ya que "maximiza la posibilidad" de ver la muestra que realmente vio (con un refinamiento adecuado de lo que es decir, para el caso continuo) y una serie de propiedades muy claras que son teórica y prácticamente útiles (por ejemplo, relación con el límite inferior de Cramer-Rao, equivalencia bajo transformación, relación con las pruebas de relación de probabilidad, etc.). Esto motiva la estimación M por ejemplo.
Incluso cuando no puede especificar un modelo, es posible construir un modelo para el cual el LD sea resistente a la contaminación por errores graves en la distribución condicional de la respuesta, donde retiene una eficiencia bastante buena en el gaussiano pero evita lo potencialmente desastroso impacto de valores atípicos arbitrariamente grandes.
[Esa no es la única consideración con la regresión, ya que también existe la necesidad de robustez en el efecto de valores atípicos influyentes, por ejemplo, pero es un buen paso inicial]
Como demostración del problema incluso con el mejor estimador lineal, considere esta comparación de estimadores de pendiente para regresión. En este caso hay 100 observaciones en cada muestra, x es 0/1, la pendiente verdadera es12 y los errores son Cauchy estándar. La simulación toma 1000 conjuntos de datos simulados y calcula la estimación de pendiente de mínimos cuadrados ("LS"), así como un par de estimadores no lineales que podrían usarse en esta situación (ninguno es completamente eficiente en el Cauchy pero ambos son razonables) ) - uno es un estimador L1 de la línea ("L1") y el segundo calcula una estimación L simple de la ubicación en los dos valores de x y se ajusta a una línea que los une ("LE").
La parte superior del diagrama es un diagrama de caja de esas miles de estimaciones de pendiente para cada simulación. La parte inferior es el uno por ciento central (más o menos, está marcado con un cuadro naranja-gris tenue en el gráfico superior) de esa imagen "ampliada" para que podamos ver más detalles. Como vemos, las pendientes de mínimos cuadrados oscilan entre -771 y 1224 y los cuartiles inferior y superior son -1.24 y 2.46. El error en la pendiente LS fue superior a 10 más del 10% del tiempo. Los dos estimadores no lineales funcionan mucho mejor: funcionan de manera bastante similar entre sí, ninguno de los 1000 estimados de pendiente en ninguno de los casos está a más de 0.84 de la pendiente verdadera y el error absoluto medio en la pendiente está en el estadio de 0.14 por cada (vs 1.86 para el estimador de mínimos cuadrados). La pendiente LS tiene un RMSE de 223 y 232 veces el de los estimadores L1 y LE en este caso (que '
Hay docenas de otros estimadores razonables que podrían haber sido utilizados aquí; esto fue simplemente un cálculo rápido para ilustrar que incluso los estimadores lineales mejores / más eficientes pueden no ser útiles. Un estimador ML de la pendiente funcionaría mejor (en el sentido de MSE) que los dos estimadores robustos utilizados aquí, pero en la práctica querría algo con cierta robustez para los puntos influyentes.
fuente
En el caso de los datos distribuidos normalmente, OLS converge con el MLE, una solución que es AZUL (en ese punto). Una vez fuera de lo normal, OLS ya no es AZUL (en términos del teorema de Gauss-Markov), esto se debe a que OLS busca minimizar el SSR, mientras que GMT define AZUL en términos de SE mínimo. Ver más aquí .
En términos generales, dado que existe un MLE (google para 'falla de MLE' o para casos donde no existe MLE), es más fácil ajustarlo, ya sea para minimizar la varianza o hacerlo imparcial (y por lo tanto comparable a otros estimadores) .
fuente