Estimación de máxima verosimilitud: por qué se usa a pesar de estar sesgada en muchos casos

25

La estimación de máxima verosimilitud a menudo se traduce en estimadores sesgados (por ejemplo, su estimación de la varianza muestral está sesgada para la distribución gaussiana).

¿Qué lo hace tan popular? ¿Por qué exactamente se usa tanto? Además, ¿qué lo hace en particular mejor que el enfoque alternativo: método de momentos?

Además, noté que para el gaussiano, una simple escala del estimador MLE lo hace imparcial. ¿Por qué esta escala no es un procedimiento estándar? Quiero decir, ¿por qué después del cálculo de MLE no es rutinario encontrar la escala necesaria para que el estimador sea imparcial? La práctica estándar parece ser el cálculo simple de las estimaciones de MLE, excepto, por supuesto, para el conocido caso gaussiano donde el factor de escala es bien conocido.

Minaj
fuente
11
Hay muchas, muchas alternativas al NM, no solo el método de los momentos, que también tiende a producir estimadores sesgados, por cierto. Lo que quizás quieras preguntar es "¿por qué alguien querría usar un estimador imparcial?" Una buena manera de comenzar a investigar este problema es buscar un equilibrio entre sesgo y varianza .
whuber
77
Como señaló Whuber, no hay superioridad intrínseca en ser imparcial.
Xi'an
44
Creo que @whuber significa "¿por qué alguien querría usar un estimador sesgado ?" No toma mucho trabajo convencer a alguien de que un estimador imparcial puede ser razonable.
Cliff AB
55
Consulte en.wikipedia.org/wiki/… para ver un ejemplo en el que el único estimador imparcial no es uno que quiera usar.
Scortchi - Restablece a Monica
44
@Cliff Tenía la intención de hacer la pregunta en su forma más provocativa y potencialmente más misteriosa. Detrás de esto se esconde la idea de que hay muchas formas de evaluar la calidad de un estimador y muchas de ellas no tienen nada que ver con el sesgo. Desde ese punto de vista, es muy natural preguntar por qué alguien propondría un estimador imparcial . Vea la respuesta de glen_b para más información desde este punto de vista.
whuber

Respuestas:

18

La imparcialidad no es necesariamente especialmente importante por sí sola.

Aparte de un conjunto muy limitado de circunstancias, la mayoría de los estimadores útiles son parciales, sin embargo, se obtienen.

Si dos estimadores tienen la misma varianza, uno puede montar fácilmente un argumento para preferir uno imparcial a uno sesgado, pero esa es una situación inusual (es decir, puede preferir razonablemente imparcialidad, ceteris paribus , pero esos molestos ceteris casi nunca son paribus ).

Más típicamente, si desea imparcialidad, agregará alguna variación para obtenerlo, y luego la pregunta sería ¿por qué haría eso ?

El sesgo es hasta qué punto el valor esperado de mi estimador será demasiado alto en promedio (con un sesgo negativo que indica demasiado bajo).

Cuando estoy considerando un estimador de muestra pequeño, realmente no me importa eso. Por lo general, estoy más interesado en cuán equivocado estará mi estimador en este caso : mi distancia típica de la derecha ... algo como un error de media cuadrática o un error absoluto medio tendría más sentido.

Entonces, si le gusta la varianza baja y el sesgo bajo, tendría sentido pedir un estimador de error cuadrático medio mínimo ; estos son muy raramente imparciales.

El sesgo y la imparcialidad es una noción útil a tener en cuenta, pero no es una propiedad especialmente útil para buscar a menos que solo esté comparando estimadores con la misma varianza.

Los estimadores de ML tienden a ser de baja varianza; por lo general, no tienen un MSE mínimo, pero a menudo tienen un MSE más bajo que el que modificarlo para que sea imparcial (cuando puede hacerlo) le daría.

Como ejemplo, considere estimar la varianza al tomar muestras de una distribución normal (de hecho, el MMSE para la varianza siempre tiene un denominador mayor que ).σ^MMSE2=S2norte+1,σ^MLE2=S2norte,σ^Unb2=S2norte-1norte-1

Glen_b -Reinstate a Monica
fuente
1
+1. ¿Hay alguna intuición para (o quizás alguna teoría detrás) de su segundo antes del último párrafo? ¿Por qué los estimadores de ML tienden a ser de baja varianza? ¿Por qué a menudo tienen un MSE más bajo que el estimador imparcial? Además, me sorprende ver la expresión del estimador de varianza MMSE; de alguna manera nunca lo he encontrado antes. ¿Por qué se usa tan raramente? ¿Y tiene algo que ver con la contracción? Parece que está "encogido" desde imparcial hacia cero, pero eso me confunde, ya que estoy acostumbrado a pensar en la contracción solo en el contexto multivariante (en la línea de James-Stein).
ameba dice Reinstate Monica
1
@amoeba MLEs son generalmente funciones de estadísticas suficientes, y al menos asintóticamente varianza mínima imparcial, por lo que se espera que sean de baja varianza en muestras grandes, por lo general logrando el CRLB en el límite; Esto a menudo se refleja en muestras más pequeñas. Estimadores MMSE son generalmente encogidos hacia cero debido a que reduce la varianza (y por lo tanto una pequeña cantidad de sesgo hacia 0 introducida por una pequeña contracción será típicamente reducir MSE).
Glen_b: reinstala a Monica el
@Glen_b, gran respuesta (sigo volviendo a ello). ¿Tendría una explicación o una referencia para que sea ​​el estimador mínimo de MSE? σ^MMSE2=S2norte+1
Richard Hardy
Además, ¿eso implica que el estimador de varianza ML no es un estimador de varianza mínima? De lo contrario, el estimador mínimo de MSE sería un promedio ponderado (con pesos positivos) del MLE y el estimador imparcial, pero ahora está fuera de ese rango. Podría hacer esto como una pregunta separada si crees que tiene sentido.
Richard Hardy
1
Encontré una derivación completa en un artículo de Wikipedia sobre MSE , supongo que eso explica todo.
Richard Hardy
16

MLE produce el valor más probable de los parámetros del modelo, dado el modelo y los datos disponibles, que es un concepto bastante atractivo. ¿Por qué elegiría valores de parámetros que hacen que los datos observados sean menos probables cuando puede elegir los valores que hacen que los datos observados sean los más probables en cualquier conjunto de valores? ¿Desea sacrificar esta característica por imparcialidad? No digo que la respuesta sea siempre clara, pero la motivación para MLE es bastante fuerte e intuitiva.

Además, MLE puede ser más ampliamente aplicable que el método de momentos, que yo sepa. MLE parece más natural en casos de variables latentes; por ejemplo, un modelo de promedio móvil (MA) o un modelo de heterocedasticidad condicional autorregresiva generalizada (GARCH) puede estimarse directamente por MLE (me refiero directamente a que es suficiente para especificar una función de probabilidad y someterla a una rutina de optimización), pero no por el método de los momentos (aunque pueden existir soluciones indirectas que utilizan el método de los momentos).

Richard Hardy
fuente
44
+1. Por supuesto, hay muchos casos en los que no desea la estimación más probable, como los modelos de mezcla gaussiana (es decir, la probabilidad ilimitada). En general, una gran respuesta para ayudar a la intuición de MLE.
Cliff AB
3
(+1) Pero creo que necesita agregar una definición del valor del parámetro "más probable" como el dado que los datos son más claros. Otras propiedades intuitivamente deseables de un estimador no relacionado con su comportamiento a largo plazo bajo muestreo repetido podrían incluir no depender de cómo parametriza un modelo y no producir estimaciones imposibles del valor del parámetro verdadero.
Scortchi - Restablece a Monica
66
Piense que todavía existe el riesgo de que "lo más probable" sea leído como "lo más probable".
Scortchi - Restablece a Monica
2
@ RichardHardy: No se parecen en nada. Lo más probable es que el sol se haya ido. Lo más probable es que no lo haya hecho.
user2357112 es compatible con Monica el
2
@dsaxton: Los estadísticos han estado diferenciando la probabilidad de un valor de parámetro dados los datos de la probabilidad de los datos dados un valor de parámetro durante casi un siglo - ver Fisher (1921) "Sobre el 'error probable de una correlación", Metron , 1 , págs. 3-32 y Pawitan (2013), En toda probabilidad: modelado estadístico e inferencia usando probabilidad , por lo que aunque los términos son sinónimos en el uso ordinario, parece un poco tarde para objetar.
Scortchi - Restablece a Monica
12

En realidad, la escala de las estimaciones de máxima verosimilitud para obtener estimaciones imparciales es un procedimiento estándar en muchos problemas de estimación. La razón de esto es que el mle es una función de las estadísticas suficientes y, por lo tanto, según el teorema de Rao-Blackwell, si puede encontrar un estimador imparcial basado en estadísticas suficientes, entonces tiene un Estimador imparcial de varianza mínima.

Sé que su pregunta es más general que eso, pero lo que quiero enfatizar es que los conceptos clave están íntimamente relacionados con la probabilidad y las estimaciones basadas en ella. Es posible que estas estimaciones no sean insesgadas en muestras finitas, pero son asintóticamente así y, además, son asintóticamente eficientes, es decir, alcanzan el límite de variación de Cramer-Rao para estimadores insesgados, lo que no siempre puede ser el caso de los estimadores MOM.

JohnK
fuente
11

Para responder a su pregunta de por qué el MLE es tan popular, tenga en cuenta que, aunque puede estar sesgado, es coherente en condiciones estándar. Además, es asintóticamente eficiente, por lo que al menos para muestras grandes, es probable que el MLE funcione tan bien o mejor que cualquier otro estimador que pueda preparar. Finalmente, el MLE se encuentra mediante una receta simple; tomar la función de probabilidad y maximizarla. En algunos casos, esa receta puede ser difícil de seguir, pero para la mayoría de los problemas, no lo es. Además, una vez que tenga esta estimación, podemos derivar los errores estándar asintóticos de inmediato utilizando la información de Fisher. Sin usar la información de Fisher, a menudo es muy difícil derivar los límites de error.

Esta es la razón por la cual la estimación MLE es a menudo el estimador ir a (a menos que sea un Bayesiano); es simple de implementar y es probable que sea tan bueno, si no mejor, que cualquier otra cosa que necesite hacer más trabajo para cocinar.

Acantilado
fuente
1
¿Puede explicar cómo se compara con el método de los momentos, ya que parece ser una parte importante del OP?
Antoni Parellada
1
Como señaló Whuber, los estimadores MOM también están sesgados, por lo que no hay una ventaja de "imparcialidad" en los estimadores MOM. Además, cuando los estimadores MOM y MLE no están de acuerdo, el MLE tiende a tener un MSE más bajo. Pero esta respuesta es realmente sobre por qué los MLE tienden a ser el valor predeterminado, en lugar de una comparación directa con otros métodos.
Cliff AB
2
@AntoniParellada Hay un hilo interesante en la comparación de MLE y MoM, stats.stackexchange.com/q/80380/28746
Alecos Papadopoulos
3

Añadiría que a veces (a menudo) usamos un estimador MLE porque eso es lo que obtuvimos, incluso si en un mundo ideal no fuera lo que queremos. (A menudo pienso que las estadísticas son como ingeniería, donde usamos lo que obtuvimos, no lo que queremos). En muchos casos, es fácil definir y resolver el MLE, y luego obtener un valor utilizando un enfoque iterativo. Mientras que para un parámetro dado en una situación dada puede haber un mejor estimador (para algún valor de "mejor"), pero encontrarlo puede requerir ser muy inteligente; y cuando haya terminado de ser inteligente, solo tendrá el mejor estimador para ese problema en particular.

eac2222
fuente
1
Por curiosidad, ¿cuál es un ejemplo de lo que (en el mundo ideal) desearías?
Glen_b -Reinstala a Monica el
2
@Glen_b: No sé. ¿Imparcial, la varianza más baja, fácil de calcular en forma cerrada? Cuando aprende por primera vez los estimadores para la regresión de mínimos cuadrados, la vida parece más simple de lo que parece ser.
eac2222