¿Por qué es tan común obtener estimaciones de máxima verosimilitud de parámetros, pero prácticamente nunca se oye hablar de las estimaciones esperadas de parámetros de verosimilitud (es decir, en función del valor esperado en lugar del modo de una función de verosimilitud)? ¿Es esto principalmente por razones históricas, o por razones técnicas o teóricas más sustantivas?
¿Habría ventajas y / o desventajas significativas al usar las estimaciones de probabilidad esperadas en lugar de las estimaciones de probabilidad máxima?
¿Hay algunas áreas en las que se usan rutinariamente las estimaciones de probabilidad esperadas ?
Respuestas:
El método propuesto (después de normalizar la probabilidad de ser una densidad) es equivalente a estimar los parámetros usando un plano previo para todos los parámetros en el modelo y usando la media de la distribución posterior como su estimador. Hay casos en los que usar un plano anterior puede meterte en problemas porque no terminas con una distribución posterior adecuada, así que no sé cómo rectificarías esa situación aquí.
Sin embargo, al permanecer en un contexto frecuentista, el método no tiene mucho sentido ya que la probabilidad no constituye una densidad de probabilidad en la mayoría de los contextos y no queda nada al azar, por lo que tomar una expectativa no tiene mucho sentido. Ahora podemos formalizar esto como una operación que aplicamos a la probabilidad después del hecho de obtener una estimación, pero no estoy seguro de cómo serían las propiedades frecuentas de este estimador (en los casos en que la estimación realmente exista).
Ventajas:
Desventajas
fuente
Una razón es que la estimación de máxima verosimilitud es más fácil: establece la derivada de la verosimilitud wrt los parámetros a cero y resuelve los parámetros. Tomar una expectativa significa integrar los tiempos de probabilidad de cada parámetro.
En algunos casos, el parámetro de máxima verosimilitud es el mismo que el parámetro de verosimilitud esperado. Por ejemplo, la media de probabilidad esperada de la distribución normal anterior es la misma que la probabilidad máxima porque lo anterior en la media es normal y el modo y la media de una distribución normal coinciden. Por supuesto, eso no será cierto para el otro parámetro (sin embargo, lo parametrizas).
Creo que la razón más importante es, probablemente, ¿por qué quieres una expectativa de los parámetros? Por lo general, está aprendiendo un modelo y los valores de los parámetros son todo lo que desea. Si va a devolver un valor único, ¿no es la máxima probabilidad lo mejor que puede devolver?
fuente
Este enfoque existe y se llama Estimador de contraste mínimo. El ejemplo de papel relacionado (y ver otras referencias desde adentro) https://arxiv.org/abs/0901.0655
fuente