¿Por qué la probabilidad máxima y la probabilidad no esperada?

22

¿Por qué es tan común obtener estimaciones de máxima verosimilitud de parámetros, pero prácticamente nunca se oye hablar de las estimaciones esperadas de parámetros de verosimilitud (es decir, en función del valor esperado en lugar del modo de una función de verosimilitud)? ¿Es esto principalmente por razones históricas, o por razones técnicas o teóricas más sustantivas?

¿Habría ventajas y / o desventajas significativas al usar las estimaciones de probabilidad esperadas en lugar de las estimaciones de probabilidad máxima?

¿Hay algunas áreas en las que se usan rutinariamente las estimaciones de probabilidad esperadas ?

Jake Westfall
fuente
99
¿Valor esperado con respecto a qué distribución de probabilidad? El ML generalmente se aplica en análisis no bayesianos donde (a) se proporcionan los datos (y se fijan) y (b) los parámetros se tratan como constantes (desconocidas): no hay variables aleatorias en absoluto.
whuber

Respuestas:

15

El método propuesto (después de normalizar la probabilidad de ser una densidad) es equivalente a estimar los parámetros usando un plano previo para todos los parámetros en el modelo y usando la media de la distribución posterior como su estimador. Hay casos en los que usar un plano anterior puede meterte en problemas porque no terminas con una distribución posterior adecuada, así que no sé cómo rectificarías esa situación aquí.

Sin embargo, al permanecer en un contexto frecuentista, el método no tiene mucho sentido ya que la probabilidad no constituye una densidad de probabilidad en la mayoría de los contextos y no queda nada al azar, por lo que tomar una expectativa no tiene mucho sentido. Ahora podemos formalizar esto como una operación que aplicamos a la probabilidad después del hecho de obtener una estimación, pero no estoy seguro de cómo serían las propiedades frecuentas de este estimador (en los casos en que la estimación realmente exista).

Ventajas:

  • Esto puede proporcionar una estimación en algunos casos donde el MLE no existe realmente.
  • Si no eres terco, puede llevarte a un entorno bayesiano (y esa sería probablemente la forma natural de hacer inferencia con este tipo de estimación). Bien, dependiendo de sus puntos de vista, esto puede no ser una ventaja, pero para mí lo es.

Desventajas

  • Esto tampoco garantiza que exista.
  • Si no tenemos un espacio de parámetro convexo, la estimación puede no ser un valor válido para el parámetro.
  • El proceso no es invariable para la reparametrización. Dado que el proceso es equivalente a poner un plano previo en sus parámetros, hace una diferencia en cuáles son esos parámetros (¿estamos hablando de usar como parámetro o estamos usando σ 2 )σσ2
Razón
fuente
77
+1 Un gran problema al asumir una distribución uniforme de los parámetros es que los problemas de LD a menudo se reformulan al explotar la invariancia de sus soluciones para la reparametrización: sin embargo, eso cambiaría la distribución previa de los parámetros. Por lo tanto, tomar una "expectativa" como si los parámetros tuvieran una distribución uniforme es un artefacto arbitrario y puede conducir a resultados erróneos y sin sentido.
whuber
1
¡Buen punto! Iba a mencionar eso también, pero olvidé mencionarlo mientras escribía el resto.
Dason 01 de
Para el registro, la probabilidad máxima tampoco es invariable para la reparametrización.
Neil G
1
@NeilG ¿Sí lo es? Sin embargo, tal vez nos estamos refiriendo a ideas diferentes. ¿Qué quieres decir cuando dices eso?
Dason
p[0,1]α=β=2o[0,)α=β=2121314
12

Una razón es que la estimación de máxima verosimilitud es más fácil: establece la derivada de la verosimilitud wrt los parámetros a cero y resuelve los parámetros. Tomar una expectativa significa integrar los tiempos de probabilidad de cada parámetro.

{xi}μ=E(x)χ=E(x2)

En algunos casos, el parámetro de máxima verosimilitud es el mismo que el parámetro de verosimilitud esperado. Por ejemplo, la media de probabilidad esperada de la distribución normal anterior es la misma que la probabilidad máxima porque lo anterior en la media es normal y el modo y la media de una distribución normal coinciden. Por supuesto, eso no será cierto para el otro parámetro (sin embargo, lo parametrizas).

Creo que la razón más importante es, probablemente, ¿por qué quieres una expectativa de los parámetros? Por lo general, está aprendiendo un modelo y los valores de los parámetros son todo lo que desea. Si va a devolver un valor único, ¿no es la máxima probabilidad lo mejor que puede devolver?

Neil G
fuente
66
Con respecto a su última línea: tal vez, tal vez no. Depende de su función de pérdida. Acabo de jugar con la idea de Jake y parece que para el caso de X ~ Unif (0, theta) que max (X) * (n-1) / (n-2), que es lo que da el método de Jake, tiene un mejor MSE que max (X), que es el MLE (al menos las simulaciones implican esto cuando n> = 5). Obviamente, el ejemplo de Unif (0, theta) no es típico, pero muestra que existen otros métodos plausibles para obtener estimadores.
Dason
44
@Dason Una técnica frecuente (estándar y potente) para encontrar estimadores buenos ( es decir , admisibles) es calcular estimadores de Bayes para varios antecedentes. (Véase, por ejemplo , el libro de Lehmann sobre estimación puntual). Acaba de redescubrir uno de estos estimadores.
whuber
Gracias por tu respuesta Neil! Usted dice que obtener las estimaciones de los parámetros a través de la diferenciación es más fácil en comparación con la integración, y ciertamente puedo ver cómo esto sería cierto para problemas simples (por ejemplo, nivel de lápiz y papel o no mucho más allá). Pero para problemas mucho más complicados en los que tenemos que confiar en métodos numéricos, ¿no podría ser realmente más fácil usar la integración? En la práctica, encontrar el MLE puede ser un problema de optimización bastante difícil. ¿La aproximación numérica de la integral no podría ser computacionalmente más fácil? ¿O es poco probable que eso sea cierto en la mayoría de los casos?
Jake Westfall
@JakeWestfall: ¿Cómo vas a tener una expectativa sobre el espacio de parámetros usando métodos numéricos? En un espacio modelo complicado con un gran espacio de parámetros, no puede integrarse en todo el asunto evaluando la probabilidad de cada modelo (configuración de parámetros). Por lo general, va a ejecutar EM para el cual la estimación de parámetros ocurre en el paso M de modo que cada parámetro sea uno de los "problemas simples" como usted dice, y para el cual los parámetros de máxima verosimilitud son expectativas directas de estadísticas suficientes.
Neil G
@NeilG Bueno, Dason señala que el método que estoy discutiendo es (después de la normalización) equivalente a la estimación bayesiana con un plano anterior y luego utiliza la media posterior como la estimación. Entonces, en respuesta a "¿Cómo vas a tener una expectativa sobre el espacio de parámetros usando métodos numéricos?" Creo que estaba pensando que podríamos usar uno de estos métodos: bayesian-inference.com/numericalapproximation ¿ Alguna idea sobre esto?
Jake Westfall
2

Este enfoque existe y se llama Estimador de contraste mínimo. El ejemplo de papel relacionado (y ver otras referencias desde adentro) https://arxiv.org/abs/0901.0655

Danila Doroshin
fuente