¿Cuándo funciona la máxima probabilidad y cuándo no?

16

Estoy confundido sobre el método de máxima verosimilitud en comparación con, por ejemplo, calcular la media aritmética.

¿Cuándo y por qué la probabilidad máxima produce estimaciones "mejores" que, por ejemplo, la media aritmética? ¿Cómo es esto verificable?

mavavilj
fuente
44
+1 Esta es una buena pregunta para cualquier procedimiento estadístico.
whuber
3
No creo que esta pregunta sea demasiado clara. Ciertamente, el OP no está claro, pero es por eso que están preguntando. Los problemas relacionados con la naturaleza de MLE y los medios aritméticos deben aclararse con una buena respuesta.
gung - Restablece a Monica
3
¿Qué quieres decir con "mejor"? ¿Y por qué la media aritmética sería un buen estimador de un parámetro arbitrario?
Xi'an
44
La pregunta no puede responderse sin establecer primero una definición de "mejor", es decir, de una función de pérdida u otro criterio que permita comparar estimadores. Por ejemplo, el MLE es eficiente, lo que significa que no hay un estimador con una varianza asintótica menor (en algunas condiciones de regularidad). Y, por ejemplo, el MLE puede ser inadmisible como lo demuestra el efecto Stein , lo que significa que existen estimadores con un riesgo cuadrático menor para todos los valores del parámetro bajo algunas restricciones en la distribución de la muestra y la dimensión del parámetro.
Xi'an
2
@ Xi'an Eso suena como la base de una respuesta.
whuber

Respuestas:

10

Si bien la media aritmética puede sonar como el estimador "natural", uno podría preguntarse por qué debería preferirse al MLE. La única propiedad segura asociada con la media aritmética es que es un estimador imparcial de E [ X ] cuando se define esta expectativa. (Piense en la distribución de Cauchy como un contraejemplo). La última de hecho disfruta de una amplia gama de propiedades en condiciones de regularidad sobre la función de probabilidad. Para tomar prestado de la página de Wikipedia , el MLE esx¯E[X]

  1. consistente
  2. asintóticamente normal
  3. eficiente porque logra la mínima varianza asintótica
  4. invariante bajo transformaciones biyectivas
  5. dentro del conjunto de parámetros incluso para conjuntos de parámetros restringidos

En comparación con la media aritmética, la mayoría de esas propiedades también se satisfacen para distribuciones lo suficientemente regulares. Excepto 4 y 5. En el caso de familias exponenciales, el MLE y la media aritmética son idénticos para estimar el parámetro en la parametrización media (pero no para otras parametrizaciones). Y el MLE existe para una muestra de la distribución Cauchy.

Sin embargo, al recurrir a propiedades de optimización de muestras finitas como la mínima o admisibilidad, puede ocurrir que el MLE no sea mínimo ni admisible. Por ejemplo, el efecto Stein muestra que existen estimadores con un riesgo cuadrático menor para todos los valores del parámetro bajo algunas restricciones en la distribución de la muestra y la dimensión del parámetro. Este es el caso cuando y p 3 .xNp(θ,Ip)p3

Xi'an
fuente
Solo para aclarar sobre el mle: las 5 propiedades enumeradas están todas dentro del contexto de un modelo asumido para la población.
probabilidadislogica
@CagdasOzgenc: sí, ¡la dominación es asintóticamente insignificante pero vale para todos los ! Sin embargo, el rango de los estimadores minimax de James-Stein se reduce con n ya que la constante de contracción está entre 0 y 2 ( p - 2 ) σ 2 / n donde p es la dimensión y σ 2 la varianza de un componente de observación. Sin embargo, nunca escuché hablar de la minimaxidad asintótica. nsn02(p2)σ2/npσ2
Xi'an
2

Interpretemos "calcular la media aritmética" como una estimación utilizando el Método de los momentos (MoM). Creo que es fiel a la pregunta original ya que el método sustituye los promedios de muestra por los teóricos. También aborda la preocupación de @ Xi'an sobre un parámetro arbitrario (de un modelo arbitrario).

Si todavía estás conmigo, entonces creo que un gran lugar para ir es ¿ Ejemplos en los que el método de los momentos puede vencer la máxima probabilidad en muestras pequeñas? El texto de la pregunta señala que "los estimadores de máxima verosimilitud (MLE) son asintóticamente eficientes; vemos el resultado práctico de que a menudo funcionan mejor que las estimaciones del método de momentos (MoM) (cuando difieren)", y busca casos específicos donde los estimadores MoM lograr un error cuadrático medio menor que su contraparte MLE. Algunos ejemplos que se proporcionan están en el contexto de la regresión lineal, la distribución gaussiana inversa de dos parámetros y una distribución de potencia exponencial asimétrica.

Esta idea de "eficiencia asintótica" significa que los estimadores de máxima verosimilitud probablemente estén cerca de utilizar los datos en su máximo potencial (para estimar el parámetro en cuestión), una garantía que no se obtiene con el método de los momentos en general. Si bien la máxima probabilidad no siempre es "mejor" que trabajar con promedios, esta propiedad de eficiencia (aunque solo sea en el límite) lo convierte en un método de referencia para la mayoría de los frecuentadores. Por supuesto, el contrario podría argumentar que con el tamaño creciente de los conjuntos de datos, si está apuntando al objetivo correcto con una función de promedios, hágalo.

Ben Ogorek
fuente
1

Hay varios ejemplos famosos donde la máxima verosimilitud (ML) no proporciona la mejor solución. Ver el artículo de 1990 de Lucien Le Cam: "Máxima probabilidad: una introducción" [1] , que es de sus conferencias invitadas en la Univ. de Maryland

El ejemplo que más me gusta, porque es muy sencillo, es este:

XjYjj=1,...,nXjN(μj,σ2)YjN(μj,σ2)jXjYjjσ2

No arruinaré la diversión dándote la respuesta, pero (no es de extrañar) hay dos formas de resolver esto usando ML y ofrecen diferentes soluciones. Uno es la "media aritmética" de los residuos al cuadrado (como cabría esperar), y el otro es la mitad de la media aritmética. Puede encontrar la respuesta aquí en mi página de Github.

idnavid
fuente