En general, parece que el método de los momentos solo coincide con la media de la muestra observada o la varianza con los momentos teóricos para obtener estimaciones de los parámetros. Esto es a menudo lo mismo que MLE para familias exponenciales, supongo.
Sin embargo, es difícil encontrar una definición clara del método de los momentos y una discusión clara de por qué el MLE parece ser generalmente favorecido, a pesar de que puede ser más complicado encontrar el modo de la función de probabilidad.
Esta pregunta ¿Es MLE más eficiente que el método Moment? tiene una cita del profesor Donald Rubin (en Harvard) que dice que todos saben desde los años 40 que MLE supera a MoM, pero me interesaría saber la historia o el razonamiento de esto.
Respuestas:
En MoM, el estimador se elige de modo que alguna función tenga una expectativa condicional igual a cero. Por ejemplo, . A menudo, la expectativa es condicional en x . Típicamente, esto se convierte en un problema de minimizar una forma cuadrática en estas expectativas con una matriz de peso.mi[ g( y, x , θ ) ] = 0 X
En MLE, el estimador maximiza la función de probabilidad logarítmica.
En general, MLE hace suposiciones más estrictas (la densidad total) y, por lo tanto, generalmente es menos robusto pero más eficiente si se cumplen las suposiciones (logra el límite inferior de Kramer Rao en la varianza asintótica).
En algunos casos, los dos coinciden, OLS es un ejemplo notable donde la solución analítica es idéntica y, por lo tanto, el estimador se comporta de la misma manera.
En cierto sentido, puede pensar en un MLE (en casi todos los casos) como un estimador MoM porque el estimador establece el valor esperado del gradiente de la función de probabilidad logarítmica igual a cero. En ese sentido, hay casos en los que la densidad es incorrecta pero el MLE aún es consistente porque las condiciones de primer orden aún se cumplen. Entonces MLE se conoce como "cuasi-ML".
fuente
Hay un buen artículo sobre esto en Wikipedia.
https://en.m.wikipedia.org/wiki/Method_of_moments_(statistics)
Significa que está estimando los parámetros de la población seleccionando los parámetros de modo que la distribución de la población tenga los momentos equivalentes a los momentos observados en la muestra.
La estimación de probabilidad máxima minimiza la función de probabilidad. En algunos casos, este mínimo a veces se puede expresar en términos de establecer los parámetros de la población igual a los parámetros de la muestra.
Mientras que la solución MoM está resolviendo
Por lo tanto, el MoM es una forma práctica de estimar los parámetros, que a menudo conduce al mismo resultado exacto que el MLE (ya que los momentos de la muestra a menudo coinciden con los momentos de la población, por ejemplo, una media de muestra se distribuye alrededor de la media de la población, y hasta algún factor / sesgo, funciona muy bien). El MLE tiene una base teórica más sólida y, por ejemplo, permite la estimación de errores utilizando la matriz de Fisher (o estimaciones de la misma), y es un enfoque mucho más natural en el caso de problemas de regresión (no lo he probado pero supongo que un MoM para resolver parámetros en una regresión lineal simpleno funciona fácilmente y puede dar malos resultados. En la respuesta de superpronker, parece que esto se hace minimizando una función. Para MLE, esta minimización expresa una mayor probabilidad, pero me pregunto si representa algo tan similar para MoM).
fuente
Lo siento, no puedo pasar comentarios ...
En realidad, en MITx " Fundamentals of Statistics " se nos enseña lo contrario, que MoM se basa en la ecuación específica de los momentos, y si detectamos la densidad incorrecta, lo hacemos totalmente mal, mientras que MLE es más resistente, ya que minimizamos en todos los casos la divergencia KD ..
fuente