Estoy confundido sobre el método de máxima verosimilitud en comparación con, por ejemplo, calcular la media aritmética.
¿Cuándo y por qué la probabilidad máxima produce estimaciones "mejores" que, por ejemplo, la media aritmética? ¿Cómo es esto verificable?
maximum-likelihood
mavavilj
fuente
fuente
Respuestas:
Si bien la media aritmética puede sonar como el estimador "natural", uno podría preguntarse por qué debería preferirse al MLE. La única propiedad segura asociada con la media aritmética es que es un estimador imparcial de E [ X ] cuando se define esta expectativa. (Piense en la distribución de Cauchy como un contraejemplo). La última de hecho disfruta de una amplia gama de propiedades en condiciones de regularidad sobre la función de probabilidad. Para tomar prestado de la página de Wikipedia , el MLE esx¯ E[X]
En comparación con la media aritmética, la mayoría de esas propiedades también se satisfacen para distribuciones lo suficientemente regulares. Excepto 4 y 5. En el caso de familias exponenciales, el MLE y la media aritmética son idénticos para estimar el parámetro en la parametrización media (pero no para otras parametrizaciones). Y el MLE existe para una muestra de la distribución Cauchy.
Sin embargo, al recurrir a propiedades de optimización de muestras finitas como la mínima o admisibilidad, puede ocurrir que el MLE no sea mínimo ni admisible. Por ejemplo, el efecto Stein muestra que existen estimadores con un riesgo cuadrático menor para todos los valores del parámetro bajo algunas restricciones en la distribución de la muestra y la dimensión del parámetro. Este es el caso cuando y p ≥ 3 .x∼Np(θ,Ip) p≥3
fuente
Interpretemos "calcular la media aritmética" como una estimación utilizando el Método de los momentos (MoM). Creo que es fiel a la pregunta original ya que el método sustituye los promedios de muestra por los teóricos. También aborda la preocupación de @ Xi'an sobre un parámetro arbitrario (de un modelo arbitrario).
Si todavía estás conmigo, entonces creo que un gran lugar para ir es ¿ Ejemplos en los que el método de los momentos puede vencer la máxima probabilidad en muestras pequeñas? El texto de la pregunta señala que "los estimadores de máxima verosimilitud (MLE) son asintóticamente eficientes; vemos el resultado práctico de que a menudo funcionan mejor que las estimaciones del método de momentos (MoM) (cuando difieren)", y busca casos específicos donde los estimadores MoM lograr un error cuadrático medio menor que su contraparte MLE. Algunos ejemplos que se proporcionan están en el contexto de la regresión lineal, la distribución gaussiana inversa de dos parámetros y una distribución de potencia exponencial asimétrica.
Esta idea de "eficiencia asintótica" significa que los estimadores de máxima verosimilitud probablemente estén cerca de utilizar los datos en su máximo potencial (para estimar el parámetro en cuestión), una garantía que no se obtiene con el método de los momentos en general. Si bien la máxima probabilidad no siempre es "mejor" que trabajar con promedios, esta propiedad de eficiencia (aunque solo sea en el límite) lo convierte en un método de referencia para la mayoría de los frecuentadores. Por supuesto, el contrario podría argumentar que con el tamaño creciente de los conjuntos de datos, si está apuntando al objetivo correcto con una función de promedios, hágalo.
fuente
Hay varios ejemplos famosos donde la máxima verosimilitud (ML) no proporciona la mejor solución. Ver el artículo de 1990 de Lucien Le Cam: "Máxima probabilidad: una introducción" [1] , que es de sus conferencias invitadas en la Univ. de Maryland
El ejemplo que más me gusta, porque es muy sencillo, es este:
No arruinaré la diversión dándote la respuesta, pero (no es de extrañar) hay dos formas de resolver esto usando ML y ofrecen diferentes soluciones. Uno es la "media aritmética" de los residuos al cuadrado (como cabría esperar), y el otro es la mitad de la media aritmética. Puede encontrar la respuesta aquí en mi página de Github.
fuente