¿Cuáles son las propiedades de MLE que lo hacen más deseable que OLS?

Esta pregunta parece lo suficientemente fundamental como para estar convencido de que se ha respondido aquí en alguna parte, pero no la he encontrado.

Entiendo que si la variable dependiente en una regresión se distribuye normalmente, la probabilidad máxima y los mínimos cuadrados ordinarios producen las mismas estimaciones de parámetros.

Cuando la variable dependiente no se distribuye normalmente, las estimaciones de los parámetros OLS ya no son equivalentes a MLE, pero siguen siendo las mejores estimaciones (imparcialidad) lineal imparcial (AZUL).

Entonces, ¿cuáles son las propiedades de MLE que lo hacen deseable más allá de lo que OLS tiene para ofrecer (ser AZUL)?

En otras palabras, ¿qué pierdo si no puedo decir que mis estimaciones de MCO son estimaciones de máxima probabilidad?

Para motivar un poco esta pregunta: me pregunto por qué querría elegir un modelo de regresión que no sea OLS en presencia de una variable dependiente claramente no normal.

regression maximum-likelihood least-squares blue Genial38
fuente

Depende de lo que quieras del modelo. Los econométricos suelen querer estimaciones de efecto marginal promedio en la muestra, y OLS las proporciona (siempre que no se preocupe por los supuestos de separabilidad aditiva). Pero si desea un modelo que describa otras características del fenómeno subyacente, OLS no funcionará tan bien. Por ejemplo, puede estar interesado en predicciones fuera de la muestra, o desea mejores estimaciones de incertidumbre.

generic_user

Vale la pena mencionar que OLS es más sensible a los valores atípicos, porque la función objetivo utiliza el error al cuadrado (por lo que el problema empeora cuanto más extrema es la desviación). Es por eso que las técnicas de 'regresión robusta' como la estimación M usan MLE en lugar de OLS.

HEITZ el

Si el término de error no es normal, entonces las pruebas t y las pruebas F de coeficientes pueden no ser confiables. La asimetría extrema y los valores atípicos extremos son un problema particular. Como cuestión práctica, esto hace que la especificación correcta del modelo sea más difícil, lo que contribuye al posible sesgo en las estimaciones de coeficientes (de la especificación errónea) y al mal rendimiento de la muestra.

david25272

Respuestas:

A medida que se aleja lo suficiente de la normalidad, todos los estimadores lineales pueden ser arbitrariamente malos .

Saber que puede obtener lo mejor de un lote malo (es decir, la mejor estimación imparcial lineal) no es mucho consuelo.

Si puede especificar un modelo de distribución adecuado ( ay, ahí está el problema ), maximizar la probabilidad tiene un atractivo intuitivo directo, ya que "maximiza la posibilidad" de ver la muestra que realmente vio (con un refinamiento adecuado de lo que es decir, para el caso continuo) y una serie de propiedades muy claras que son teórica y prácticamente útiles (por ejemplo, relación con el límite inferior de Cramer-Rao, equivalencia bajo transformación, relación con las pruebas de relación de probabilidad, etc.). Esto motiva la estimación M por ejemplo.

Incluso cuando no puede especificar un modelo, es posible construir un modelo para el cual el LD sea resistente a la contaminación por errores graves en la distribución condicional de la respuesta, donde retiene una eficiencia bastante buena en el gaussiano pero evita lo potencialmente desastroso impacto de valores atípicos arbitrariamente grandes.

[Esa no es la única consideración con la regresión, ya que también existe la necesidad de robustez en el efecto de valores atípicos influyentes, por ejemplo, pero es un buen paso inicial]

Como demostración del problema incluso con el mejor estimador lineal, considere esta comparación de estimadores de pendiente para regresión. En este caso hay 100 observaciones en cada muestra, x es 0/1, la pendiente verdadera es $\frac12$ y los errores son Cauchy estándar. La simulación toma 1000 conjuntos de datos simulados y calcula la estimación de pendiente de mínimos cuadrados ("LS"), así como un par de estimadores no lineales que podrían usarse en esta situación (ninguno es completamente eficiente en el Cauchy pero ambos son razonables) ) - uno es un estimador L1 de la línea ("L1") y el segundo calcula una estimación L simple de la ubicación en los dos valores de x y se ajusta a una línea que los une ("LE").

La parte superior del diagrama es un diagrama de caja de esas miles de estimaciones de pendiente para cada simulación. La parte inferior es el uno por ciento central (más o menos, está marcado con un cuadro naranja-gris tenue en el gráfico superior) de esa imagen "ampliada" para que podamos ver más detalles. Como vemos, las pendientes de mínimos cuadrados oscilan entre -771 y 1224 y los cuartiles inferior y superior son -1.24 y 2.46. El error en la pendiente LS fue superior a 10 más del 10% del tiempo. Los dos estimadores no lineales funcionan mucho mejor: funcionan de manera bastante similar entre sí, ninguno de los 1000 estimados de pendiente en ninguno de los casos está a más de 0.84 de la pendiente verdadera y el error absoluto medio en la pendiente está en el estadio de 0.14 por cada (vs 1.86 para el estimador de mínimos cuadrados). La pendiente LS tiene un RMSE de 223 y 232 veces el de los estimadores L1 y LE en este caso (que '

Hay docenas de otros estimadores razonables que podrían haber sido utilizados aquí; esto fue simplemente un cálculo rápido para ilustrar que incluso los estimadores lineales mejores / más eficientes pueden no ser útiles. Un estimador ML de la pendiente funcionaría mejor (en el sentido de MSE) que los dos estimadores robustos utilizados aquí, pero en la práctica querría algo con cierta robustez para los puntos influyentes.

Glen_b -Reinstate a Monica
fuente

Bien dicho. Eso tiene mucho sentido. Supongo que los estimadores lineales todavía funcionan bastante bien (tal vez incluso mejor que los estimadores no lineales) cuando la variable dependiente no es normal pero sigue siendo simétrica. ¿Es correcta mi intuición aquí?

Genial38

No, la simetría no es suficiente para rescatar la estimación lineal. Considere los errores de Cauchy, por ejemplo. Existen varios estimadores adecuados, pero todos son no lineales en el sentido previsto.

Glen_b -Reinstale a Monica el

He hecho una pequeña simulación para ilustrar que este problema (de rendimiento potencialmente arbitrariamente malo) se aplica a las distribuciones de error simétricas; vea mi edición. Esa simulación es para una distribución simétrica de errores. Puedes ver cuán desastrosos pueden ser los mínimos cuadrados en ese caso. De hecho, incluso una pequeña fracción de contaminación con algo que puede tener errores graves es un problema. Ser AZUL a veces puede ser de poco valor. Si sabe algo sobre cómo se comportan sus errores, puede ser una buena idea usar ese conocimiento ...

ctd

ctd ... (a través de ML, por ejemplo, incluso si lo complementa con un poco de robustez en caso de que esté equivocado; como limitar la función de influencia del estimador M resultante) y si no sabe nada, no es suficiente para asumir un probabilidad en absoluto: no necesariamente vale la pena el riesgo potencial al suponer que un estimador lineal será una gran opción. No diría "nunca use mínimos cuadrados" (lo uso con bastante regularidad, pero he sido muy consciente de lo mal que puede funcionar), pero AZUL por sí solo no implica necesariamente que sea una buena opción.

Glen_b -Reinstale a Monica el

En el caso de los datos distribuidos normalmente, OLS converge con el MLE, una solución que es AZUL (en ese punto). Una vez fuera de lo normal, OLS ya no es AZUL (en términos del teorema de Gauss-Markov), esto se debe a que OLS busca minimizar el SSR, mientras que GMT define AZUL en términos de SE mínimo. Ver más aquí .

En términos generales, dado que existe un MLE (google para 'falla de MLE' o para casos donde no existe MLE), es más fácil ajustarlo, ya sea para minimizar la varianza o hacerlo imparcial (y por lo tanto comparable a otros estimadores) .

Spätzle
fuente

La variable dependiente no necesita ser normal para que OLS sea AZUL: en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem

Great38

... además, con datos distribuidos normalmente, OLS = el MLE, no converge a él. Su segundo párrafo tampoco está claro ... ¿es más fácil ajustar el MLE que qué?

jbowman

OLS sigue siendo AZUL fuera de la normalidad; El problema es que el AZUL (y en particular el L ) en sí mismo no es necesariamente algo útil.

Glen_b: reinstala a Monica