¿Por qué la estimación de máxima verosimilitud se considera una técnica frecuente?

19

Las estadísticas frecuentes para mí son sinónimo de intentar tomar decisiones que sean buenas para todas las muestras posibles. Es decir, una regla de decisión frecuentista siempre debe tratar de minimizar el riesgo frecuentista, que depende de una función de pérdida y del verdadero estado de la naturaleza :δLθ0

Rfreq=Eθ0(L(θ0,δ(Y))

¿Cómo se relaciona la estimación de máxima verosimilitud con el riesgo frecuentista? Dado que es la técnica de estimación puntual más utilizada por los frecuentistas, debe haber alguna conexión. Hasta donde sé, la estimación de máxima verosimilitud es más antigua que el concepto de riesgo frecuentista, pero aún así debe haber alguna conexión, ¿por qué otra gente afirmaría que es una técnica frecuentista?

La conexión más cercana que he encontrado es que

"Para los modelos paramétricos que satisfacen condiciones de regularidad débiles, el estimador de máxima verosimilitud es aproximadamente minimax" Wassermann 2006, p. 201 "

La respuesta aceptada vincula la estimación del punto de máxima verosimilitud más fuerte con el riesgo frecuentista o proporciona una definición formal alternativa de inferencia frecuentista que muestra que MLE es una técnica de inferencia frecuentista.

Julian Karls
fuente
66
¡ML no presta atención al riesgo en absoluto! Eso, de hecho, es parte de la frecuente crítica teórica de la decisión de ML. Sospecho que esta pregunta puede ser difícil de responder porque implícitamente usa "Frequentista" en dos sentidos incompatibles: uno es teórico de decisión, se refiere a una función de pérdida, y el otro se refiere implícitamente a no asumir una distribución previa.
whuber
@whuber ML presta atención al riesgo. De hecho es minimización bajo pérdida logarítmica bajo un uniforme inadecuado previo.
Cagdas Ozgenc
44
@Cagdas Creo que ese no es generalmente el riesgo para un tomador de decisiones: simplemente exhibe LD como si estuviera minimizando el riesgo si la pérdida logarítmica fuera el riesgo que les importaba. Apelar a un "uniforme inapropiado previo" es decididamente no frecuente, por cierto.
whuber
1
Los procedimientos de estimación bayesiana de @whuber también están utilizando la pérdida de registro acumulada. Solo después de eso se aplica el riesgo de toma de decisiones. Si estamos hablando de optimizar el riesgo de toma de decisiones directamente (no a través de un trampolín de pérdida de registro), entonces los procedimientos frecuentas son más famosos a ese respecto, es decir, OLS.
Cagdas Ozgenc

Respuestas:

16

Aplica una definición relativamente limitada de frecuentación y MLE, si somos un poco más generosos y definimos

  • Frecuentismo: objetivo de consistencia, optimismo (asintótico), imparcialidad y tasas de error controladas bajo muestreo repetido, independientemente de los parámetros verdaderos

  • MLE = estimación puntual + intervalos de confianza (IC)

entonces parece bastante claro que MLE satisface todos los ideales frecuentistas. En particular, los IC en MLE, como valores p, controlan la tasa de error bajo muestreo repetido y no dan la región de probabilidad del 95% para el verdadero valor del parámetro, como muchas personas piensan , por lo tanto, son muy frecuentes.

No todas estas ideas ya estaban presentes en el artículo fundamental de Fisher de 1922 "Sobre los fundamentos matemáticos de la estadística teórica" , pero la idea de optimismo e imparcialidad sí existe, y Neyman agregó la idea de construir CI con tasas de error fijas. Efron, 2013, "Un argumento de 250 años: creencia, comportamiento y la rutina" , resume en su muy legible historia del debate bayesiano / frequentista:

El carro de los frecuentistas realmente comenzó a funcionar a principios del siglo XX. Ronald Fisher desarrolló la teoría de máxima probabilidad de estimación óptima, mostrando el mejor comportamiento posible para una estimación, y Jerzy Neyman hizo lo mismo para los intervalos de confianza y las pruebas. Los procedimientos de Fisher y Neyman se ajustaban casi perfectamente a las necesidades científicas y los límites computacionales de la ciencia del siglo XX, convirtiendo el bayesianismo en una existencia oculta.

Con respecto a su definición más limitada: discrepo ligeramente con su premisa de que la minimización del riesgo frecuentista (FR) es el criterio principal para decidir si un método sigue la filosofía frecuentista. Diría que el hecho de que minimizar FR es una propiedad deseable se deriva de la filosofía frecuentista, en lugar de precederla. Por lo tanto, una regla de decisión / estimador no tiene que minimizar FR para ser frecuentista, y minimizar FR tampoco es necesariamente decir que un método es frecuenta, pero un frecuentista preferiría la minimización de FR.

Si observamos específicamente el MLE: Fisher demostró que el MLE es asintóticamente óptimo (equivalente en términos generales a minimizar el FR), y esa fue sin duda una de las razones para promover el MLE. Sin embargo, era consciente de que la optimización no era válida para el tamaño de muestra finito. Aún así, estaba contento con este estimador debido a otras propiedades deseables, como la consistencia, la normalidad asintótica, la invariancia bajo las transformaciones de los parámetros, y no lo olvidemos: facilidad de cálculo. La invarianza en particular se enfatiza abundantemente en el artículo de 1922: desde mi lectura, diría que mantener la invariancia bajo la transformación de parámetros, y la capacidad de deshacerse de los antecedentes en general, fueron una de sus principales motivaciones para elegir MLE. Si quieres entender mejor su razonamiento, realmente recomiendo el artículo de 1922, '

Florian Hartig
fuente
2
¿Podría resumir su respuesta ya que la estimación del punto de máxima verosimilitud se usa con mayor frecuencia junto con los IC o como parte de una prueba de hipótesis (por ejemplo, una prueba de ración de verosimilitud), por lo tanto, es una técnica frecuente? Si este es el caso, creo que esta es una respuesta válida, sin embargo, no es la que esperaba. Estaba apuntando a un argumento formal de por qué la estimación de máxima verosimilitud puede considerarse una técnica de estimación puntual frecuente. Si esto requiere otra definición formal de inferencia frecuentista, también está bien.
Julian Karls
1
En general, pienso en MLE como un marco que incluye las estimaciones puntuales de Fisher junto con los CI de Neyman: así es como se enseña en clase, y debido a los argumentos anteriores, mantendría que es frecuente hasta la médula. Me pregunto qué sentido tiene discutir si MLE solo es un estimador frecuente, sin el contexto de cómo y por qué se usa. Si quieres las razones de Fisher, realmente recomiendo el artículo de 1922; diría que las razones que él dice son frecuentes, aunque esta palabra no existía en ese momento. He extendido mi comentario al respecto.
Florian Hartig
1

Básicamente, por dos razones:

  • La probabilidad máxima es una estimación puntual de los parámetros del modelo. A los bayesianos nos gustan las distribuciones posteriores.
  • La probabilidad máxima supone que no hay distribución previa , nosotros los bayesianos necesitamos nuestros antecedentes, podría ser informativo o no informativo, pero debe existir
Uri Goren
fuente
66
+1 Solo quiero señalar que implícitamente pareces equiparar "frecuentista" con "no bayesiano" en esta respuesta. El lenguaje de "Nosotros Bayesianos" también sugiere que "Bayesiano" se refiere a algún tipo de característica personal o pertenencia a una tribu, casi como si fuera una especie de esquimal, en lugar de un conjunto de técnicas e interpretaciones.
whuber
44
Por otro lado, MLE puede derivarse fácilmente como una técnica bayesiana. Es simplemente la estimación MAP para cualquier modelo estadístico que use un previo uniforme.
Julian Karls
3
MAPtambién es una estimación puntual, y está mal visto por los "verdaderos bayesianos"
Uri Goren