La estimación de máxima verosimilitud a menudo se traduce en estimadores sesgados (por ejemplo, su estimación de la varianza muestral está sesgada para la distribución gaussiana).
¿Qué lo hace tan popular? ¿Por qué exactamente se usa tanto? Además, ¿qué lo hace en particular mejor que el enfoque alternativo: método de momentos?
Además, noté que para el gaussiano, una simple escala del estimador MLE lo hace imparcial. ¿Por qué esta escala no es un procedimiento estándar? Quiero decir, ¿por qué después del cálculo de MLE no es rutinario encontrar la escala necesaria para que el estimador sea imparcial? La práctica estándar parece ser el cálculo simple de las estimaciones de MLE, excepto, por supuesto, para el conocido caso gaussiano donde el factor de escala es bien conocido.
Respuestas:
La imparcialidad no es necesariamente especialmente importante por sí sola.
Aparte de un conjunto muy limitado de circunstancias, la mayoría de los estimadores útiles son parciales, sin embargo, se obtienen.
Si dos estimadores tienen la misma varianza, uno puede montar fácilmente un argumento para preferir uno imparcial a uno sesgado, pero esa es una situación inusual (es decir, puede preferir razonablemente imparcialidad, ceteris paribus , pero esos molestos ceteris casi nunca son paribus ).
Más típicamente, si desea imparcialidad, agregará alguna variación para obtenerlo, y luego la pregunta sería ¿por qué haría eso ?
El sesgo es hasta qué punto el valor esperado de mi estimador será demasiado alto en promedio (con un sesgo negativo que indica demasiado bajo).
Cuando estoy considerando un estimador de muestra pequeño, realmente no me importa eso. Por lo general, estoy más interesado en cuán equivocado estará mi estimador en este caso : mi distancia típica de la derecha ... algo como un error de media cuadrática o un error absoluto medio tendría más sentido.
Entonces, si le gusta la varianza baja y el sesgo bajo, tendría sentido pedir un estimador de error cuadrático medio mínimo ; estos son muy raramente imparciales.
El sesgo y la imparcialidad es una noción útil a tener en cuenta, pero no es una propiedad especialmente útil para buscar a menos que solo esté comparando estimadores con la misma varianza.
Los estimadores de ML tienden a ser de baja varianza; por lo general, no tienen un MSE mínimo, pero a menudo tienen un MSE más bajo que el que modificarlo para que sea imparcial (cuando puede hacerlo) le daría.
Como ejemplo, considere estimar la varianza al tomar muestras de una distribución normal (de hecho, el MMSE para la varianza siempre tiene un denominador mayor que ).σ^2MMSE= S2n + 1, σ^2MLE= S2norte, σ^2Unb= S2n - 1 n - 1
fuente
MLE produce el valor más probable de los parámetros del modelo, dado el modelo y los datos disponibles, que es un concepto bastante atractivo. ¿Por qué elegiría valores de parámetros que hacen que los datos observados sean menos probables cuando puede elegir los valores que hacen que los datos observados sean los más probables en cualquier conjunto de valores? ¿Desea sacrificar esta característica por imparcialidad? No digo que la respuesta sea siempre clara, pero la motivación para MLE es bastante fuerte e intuitiva.
Además, MLE puede ser más ampliamente aplicable que el método de momentos, que yo sepa. MLE parece más natural en casos de variables latentes; por ejemplo, un modelo de promedio móvil (MA) o un modelo de heterocedasticidad condicional autorregresiva generalizada (GARCH) puede estimarse directamente por MLE (me refiero directamente a que es suficiente para especificar una función de probabilidad y someterla a una rutina de optimización), pero no por el método de los momentos (aunque pueden existir soluciones indirectas que utilizan el método de los momentos).
fuente
En realidad, la escala de las estimaciones de máxima verosimilitud para obtener estimaciones imparciales es un procedimiento estándar en muchos problemas de estimación. La razón de esto es que el mle es una función de las estadísticas suficientes y, por lo tanto, según el teorema de Rao-Blackwell, si puede encontrar un estimador imparcial basado en estadísticas suficientes, entonces tiene un Estimador imparcial de varianza mínima.
Sé que su pregunta es más general que eso, pero lo que quiero enfatizar es que los conceptos clave están íntimamente relacionados con la probabilidad y las estimaciones basadas en ella. Es posible que estas estimaciones no sean insesgadas en muestras finitas, pero son asintóticamente así y, además, son asintóticamente eficientes, es decir, alcanzan el límite de variación de Cramer-Rao para estimadores insesgados, lo que no siempre puede ser el caso de los estimadores MOM.
fuente
Para responder a su pregunta de por qué el MLE es tan popular, tenga en cuenta que, aunque puede estar sesgado, es coherente en condiciones estándar. Además, es asintóticamente eficiente, por lo que al menos para muestras grandes, es probable que el MLE funcione tan bien o mejor que cualquier otro estimador que pueda preparar. Finalmente, el MLE se encuentra mediante una receta simple; tomar la función de probabilidad y maximizarla. En algunos casos, esa receta puede ser difícil de seguir, pero para la mayoría de los problemas, no lo es. Además, una vez que tenga esta estimación, podemos derivar los errores estándar asintóticos de inmediato utilizando la información de Fisher. Sin usar la información de Fisher, a menudo es muy difícil derivar los límites de error.
Esta es la razón por la cual la estimación MLE es a menudo el estimador ir a (a menos que sea un Bayesiano); es simple de implementar y es probable que sea tan bueno, si no mejor, que cualquier otra cosa que necesite hacer más trabajo para cocinar.
fuente
Añadiría que a veces (a menudo) usamos un estimador MLE porque eso es lo que obtuvimos, incluso si en un mundo ideal no fuera lo que queremos. (A menudo pienso que las estadísticas son como ingeniería, donde usamos lo que obtuvimos, no lo que queremos). En muchos casos, es fácil definir y resolver el MLE, y luego obtener un valor utilizando un enfoque iterativo. Mientras que para un parámetro dado en una situación dada puede haber un mejor estimador (para algún valor de "mejor"), pero encontrarlo puede requerir ser muy inteligente; y cuando haya terminado de ser inteligente, solo tendrá el mejor estimador para ese problema en particular.
fuente