¿Cuál es la diferencia en la estimación bayesiana y la estimación de máxima verosimilitud?

50

¿Por favor explíqueme la diferencia en la estimación bayesiana y la estimación de máxima verosimilitud?

Triunfo
fuente
77
Depende del tipo de estimación bayesiana. ¿MAPA? ¿Media posterior? ¿El resultado de minimizar el riesgo de Bayes para alguna función de pérdida? Cada uno de los anteriores? ¿Algo más?
Glen_b
2
He respondido esta pregunta, o un análogo, aquí. stats.stackexchange.com/questions/73439/… ¿Qué problemas tienes para entender los dos? Más detalles nos ayudarán a dar una mejor respuesta.
Vuelva a instalar a Monica el
1
Del manual de referencia de STAN: "Si lo anterior es uniforme, el modo posterior corresponde a la estimación de máxima verosimilitud (MLE) de los parámetros. Si lo anterior no es uniforme, el modo posterior a veces se denomina estimación máxima a posterior (MAP). "
Neerav
@Neerav esa es la respuesta que necesitaba. thx
javadba
Aquí se da una respuesta posiblemente útil para el caso específico de la estimación máxima a posteriori bayesiana .
pglpm

Respuestas:

68

Es una pregunta muy amplia y mi respuesta aquí solo comienza a arañar un poco la superficie. Usaré la regla de Bayes para explicar los conceptos.

Asumamos que un conjunto de parámetros de distribución de probabilidad, , explica mejor el conjunto de datos . Es posible que deseemos estimar los parámetros con la ayuda de la Regla de Bayes:D θθDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

Las explicaciones siguen:

Estimación de máxima verosimilitud

Con MLE, buscamos un valor de punto para que maximice la probabilidad, , que se muestra en las ecuaciones anteriores. Podemos denotar este valor como . En MLE, es una estimación puntual, no una variable aleatoria.p ( D | θ ) θ θθp(D|θ)θ^θ^

En otras palabras, en la ecuación anterior, MLE trata el término como una constante y NO nos permite inyectar nuestras creencias anteriores, , sobre valores probables para en los cálculos de estimación. p(θ)θp(θ)p(D)p(θ)θ

Estimación Bayesiana

La estimación bayesiana, por el contrario, calcula completamente (o en ocasiones se aproxima) la distribución posterior . La inferencia bayesiana trata a como una variable aleatoria. En la estimación bayesiana, ponemos funciones de densidad de probabilidad y sacamos funciones de densidad de probabilidad, en lugar de un solo punto como en MLE.θp(θ|D)θ

De todos los valores posibles gracias a la distribución de salida , nuestro trabajo es seleccionar un valor que consideremos mejor en algún sentido. Por ejemplo, podemos elegir el valor esperado de suponiendo que su varianza sea lo suficientemente pequeña. La varianza que podemos calcular para el parámetro partir de su distribución posterior nos permite expresar nuestra confianza en cualquier valor específico que podamos usar como una estimación. Si la varianza es demasiado grande, podemos declarar que no existe una buena estimación para .p ( θ | D ) θ θ θθp(θ|D)θθθ

Como compensación, la estimación bayesiana se vuelve compleja por el hecho de que ahora tenemos que tratar con el denominador en la regla de Bayes, es decir, la . Aquí la evidencia, o la probabilidad de la evidencia, está representada por:evidence

p(D)=θp(D|θ)p(θ)dθ

Esto lleva al concepto de "antecedentes conjugados" en la estimación bayesiana. Para una función de probabilidad dada, si tenemos una opción con respecto a cómo expresamos nuestras creencias anteriores, debemos usar esa forma que nos permite llevar a cabo la integración que se muestra arriba. COOlSerdash explica bastante bien la idea de los antecedentes conjugados y cómo se implementan prácticamente en esta publicación .

Zhubarb
fuente
1
¿Podría elaborar más sobre esto? : "el denominador en la regla de Bayes, es decir, la evidencia".
Daniel
1
Extendí mi respuesta.
Zhubarb
@Berkan en la ecuación aquí, P (D | theta) es una probabilidad. Sin embargo, la función de probabilidad se define como P (theta | D), que es la función del parámetro, dados los datos. Siempre estoy confundido acerca de esto. ¿El término probabilidad se refiere a cosas diferentes aquí? ¿Podrías dar más detalles sobre eso? ¡Muchas gracias!
zesla
1
@zesla si mi comprensión es correcta, P (theta | D) no es la probabilidad, es la posterior. Es decir, la distribución de theta condicional en la fuente de datos de la que tiene muestras. La probabilidad es como usted dijo: P (D | theta): la distribución de sus datos según lo parametrizado por theta, o dicho de manera más intuitiva, la "probabilidad de ver lo que ve" en función de theta. ¿Tiene sentido? Todos los demás: corríjanme donde estoy equivocado.
grisaitis
@zesla, la explicación dada por grisaitis es correcta.
Zhubarb
13

Creo que está hablando de la estimación puntual como en la inferencia paramétrica, por lo que podemos asumir un modelo de probabilidad paramétrica para un mecanismo generador de datos, pero se desconoce el valor real del parámetro.

La estimación de máxima probabilidad se refiere al uso de un modelo de probabilidad para los datos y la optimización de la función de probabilidad conjunta de los datos observados en uno o más parámetros. Por lo tanto, se ve que los parámetros estimados son más consistentes con los datos observados en relación con cualquier otro parámetro en el espacio de parámetros. Tenga en cuenta que tales funciones de probabilidad no se consideran necesariamente "condicionales" a los parámetros, ya que los parámetros no son variables aleatorias, por lo tanto, es algo más sofisticado concebir la probabilidad de que varios resultados comparen dos parametrizaciones diferentes. Resulta que este es un enfoque filosóficamente sólido.

La estimación bayesiana es un poco más general porque no estamos maximizando necesariamente el análogo bayesiano de la probabilidad (la densidad posterior). Sin embargo, el tipo análogo de estimación (o estimación en modo posterior) se considera que maximiza la probabilidad del parámetro posterior condicional a los datos. Por lo general, las estimaciones de Bayes obtenidas de tal manera se comportan casi exactamente como las de ML. La diferencia clave es que la inferencia de Bayes permite que un método explícito incorpore información previa.

También 'La historia épica de la máxima verosimilitud es una lectura esclarecedora

http://arxiv.org/pdf/0804.2996.pdf

AdamO
fuente
¿Podría elaborar más sobre esto? "Sin embargo, el tipo análogo de estimación (o estimación en modo posterior) se considera que maximiza la probabilidad del parámetro posterior condicional a los datos".
Daniel
El modo posterior es un poco inapropiado porque, con DF continuas, el valor está bien definido. Las densidades posteriores están relacionadas con la probabilidad en el caso frecuentista, excepto que le permite simular parámetros a partir de la densidad posterior. Curiosamente, uno piensa intuitivamente que la "media posterior" es la mejor estimación puntual del parámetro. Este enfoque a menudo se realiza y, para densidades unimodales simétricas, esto produce intervalos creíbles válidos que son consistentes con el NM. El modo posterior es solo el valor del parámetro en el vértice de la densidad posterior.
AdamO
Acerca de "esto produce intervalos creíbles válidos que son consistentes con ML": Realmente depende del modelo, ¿verdad? Pueden ser consistentes o no ...
Daniel
1
El tema de los supuestos paramétricos subyacentes motiva una discusión sobre la inferencia totalmente paramétrica versus semiparamétrica o no paramétrica . Ese no es un problema de ML vs Bayesiano y no eres el primero en cometer ese error. ML es un enfoque totalmente paramétrico, le permite estimar algunas cosas que SP o NP no pueden (y a menudo de manera más eficiente cuando pueden). Especificar correctamente el modelo de probabilidad en ML es exactamente como elegir el anterior correcto y todas las propiedades de robustez (y problemas de sensibilidad) que eso implica.
AdamO
Por cierto, sus comentarios encendieron esta pregunta en mi mente. ¿Algún comentario sobre esto? stats.stackexchange.com/questions/74164/…
Daniel
2

La estimación bayesiana es inferencia bayesiana, mientras que el MLE es un tipo de métodos de inferencia frecuentista.

Según la inferencia bayesiana, cumple, es decir, . Tenga en cuenta que la estimación de máxima verosimilitud trata la relación de evidencia a anterior como una constante (estableciendo la distribución previa como distribución uniforme, en jugar un dado, por ejemplo), lo que omite las creencias anteriores, por lo tanto MLE se considera una técnica frecuentista (en lugar de bayesiana). Y lo anterior puede no ser lo mismo en este escenario, porque si las muestras son lo suficientemente grandes, MLE equivale a MAP (para una deducción detallada, consulte esta respuesta ). likelihood=posteriorevidencef(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ) p(θ)=1/6likelihood=posteriorevidencepriorp(θ)=1/6

La alternativa de MLE en inferencia bayesiana se llama estimación máxima a posteriori (MAP para abreviar), y en realidad MLE es un caso especial de MAP donde el previo es uniforme, como vemos arriba y como se establece en Wikipedia :

Desde el punto de vista de la inferencia bayesiana, MLE es un caso especial de estimación máxima a posteriori (MAP) que supone una distribución previa uniforme de los parámetros.

Para obtener más detalles, consulte este increíble artículo: MLE vs MAP: la conexión entre la máxima verosimilitud y la máxima estimación a posteriori .

Y una diferencia más es que la probabilidad máxima es propensa al sobreajuste, pero si adopta el enfoque bayesiano, se puede evitar el problema del sobreajuste.

Lerner Zhang
fuente
1
Una de las cosas interesantes de Bayes es que no está obligado a calcular ninguna estimación puntual. Toda la densidad posterior puede ser su "estimación".
Frank Harrell
@FrankHarrell Estimado Prof. Harrell, ¿podría ayudarme a editar la respuesta si cometí algunos errores terribles en alguna parte? ¡Muchas gracias!
Lerner Zhang
1
No quise decir que habías cometido un error.
Frank Harrell
@lerner: Quiero advertir contra la identificación de la estimación de máxima verosimilitud como un caso particular de la estimación de máximo a posteriori (cuando lo anterior es constante): vea por qué en esta respuesta .
pglpm