Estimación de MLE vs MAP, ¿cuándo usar cuál?

14

MLE = Estimación de máxima verosimilitud

MAP = Máximo a posteriori

MLE es intuitivo / ingenuo en el sentido de que comienza solo con la probabilidad de observación dado el parámetro (es decir, la función de probabilidad) y trata de encontrar el parámetro que mejor concuerde con la observación . Pero no tiene en cuenta el conocimiento previo.

El MAP parece más razonable porque toma en consideración el conocimiento previo a través de la regla de Bayes.

Aquí hay una pregunta relacionada, pero la respuesta no es exhaustiva. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

Entonces, creo que MAP es mucho mejor. ¿Está bien? ¿Y cuándo debo usar cuál?

smwikipedia
fuente

Respuestas:

18

Si se proporciona una probabilidad previa como parte de la configuración del problema, entonces use esa información (es decir, use MAP). Si no se da o se asume dicha información previa, entonces MAP no es posible, y MLE es un enfoque razonable.

frijol
fuente
99
Vale la pena agregar que MAP con anteriores planos es equivalente a usar ML.
Tim
También vale la pena señalar que si desea un previo matemáticamente "conveniente", puede usar un previo conjugado, si existe para su situación.
bean
8

Un bayesiano estaría de acuerdo con usted, un frecuentador no. Esta es una cuestión de opinión, perspectiva y filosofía. Creo que hace mucho daño a la comunidad estadística intentar argumentar que un método siempre es mejor que el otro. Muchos problemas tendrán soluciones bayesianas y frecuentistas que son similares siempre y cuando el bayesiano no tenga un antecedente demasiado fuerte.

jsk
fuente
77
No es simplemente una cuestión de opinión. Hay situaciones definidas en las que un estimador es mejor que el otro.
Tom Minka
2
@TomMinka ¡Nunca dije que no hay situaciones en las que un método sea mejor que el otro! Simplemente respondí a las declaraciones generales del OP, como "MAP parece más razonable". Tal afirmación es equivalente a una afirmación de que los métodos bayesianos son siempre mejores, que es una afirmación en la que usted y yo aparentemente no estamos de acuerdo.
jsk
jok tiene razón Los enfoques bayesiano y frecuentista son filosóficamente diferentes. Entonces, un frecuentista estricto consideraría inaceptable el enfoque bayesiano.
Michael R. Chernick
2

Suponiendo que tiene información previa precisa, MAP es mejor si el problema tiene una función de pérdida cero en la estimación. Si la pérdida no es cero-uno (y en muchos problemas del mundo real no lo es), entonces puede ocurrir que el MLE logre una pérdida esperada menor. En estos casos, sería mejor no limitarse a MAP y MLE como las dos únicas opciones, ya que ambas son subóptimas.

Tom Minka
fuente
El estimador MAP si un parámetro depende de la parametrización, mientras que la pérdida "0-1" no. 0-1 entre comillas porque, según mis cálculos, todos los estimadores generalmente darán una pérdida de 1 con probabilidad 1, y cualquier intento de construir una aproximación nuevamente introduce el problema de parametrización
tipo
1
En mi opinión, la pérdida cero uno depende de la parametrización, por lo que no hay inconsistencia.
Tom Minka
0

La respuesta corta de @bean lo explica muy bien. Sin embargo, me gustaría señalar la sección 1.1 del documento Gibbs Sampling para los no iniciados por Resnik y Hardisty que lleva el asunto a mayor profundidad. Estoy escribiendo algunas líneas de este documento con modificaciones muy leves (Esta respuesta repite algunas de las cosas que OP sabe por razones de integridad)

MLE

Formalmente, MLE produce la elección (del parámetro del modelo) con mayor probabilidad de generar los datos observados.

MAPA

Un MAP estimado es la opción más probable dada la información observada. A diferencia de MLE, la estimación MAP aplica la regla de Bayes, de modo que nuestra estimación puede tener en cuenta el conocimiento previo sobre lo que esperamos que tengan nuestros parámetros en forma de una distribución de probabilidad previa.

Captura

Las estimaciones MLE y MAP nos están dando la mejor estimación, de acuerdo con sus respectivas definiciones de "mejor". Pero tenga en cuenta que el uso de una sola estimación, ya sea MLE o MAP, arroja información. En principio, el parámetro podría tener cualquier valor (del dominio); ¿no podríamos obtener mejores estimaciones si tomamos en cuenta toda la distribución, en lugar de un solo valor estimado para el parámetro? Si hacemos eso, estamos utilizando toda la información sobre el parámetro que podemos extraer de los datos observados, X.

Entonces, con esta trampa, es posible que no queramos usar ninguno de ellos. Además, como ya lo mencionaron Bean y Tim, si tiene que usar uno de ellos, use MAP si lo tiene antes. Si no tiene antecedentes, MAP se reduce a MLE. Los anteriores conjugados ayudarán a resolver el problema analíticamente; de ​​lo contrario, use Gibbs Sampling

Gaurav Singhal
fuente
0

Como sabemos que

θ^MAP=argmaxθlogP(θ|D)=argmaxθlogP(D|θ)P(θ)P(D)=argmaxθlogP(D|θ)P(θ)=argmaxθlogP(D|θ)log-likelihood+logP(θ)regularizer

El prior se trata como un regularizador y si conoce la distribución anterior, por ejemplo Gaussin ( ) en regresión lineal, y es mejor agregar eso regularización para un mejor rendimiento.exp(λ2θTθ)

Lerner Zhang
fuente
-2

Si los datos son menores y tiene antecedentes disponibles: "IR A MAPA". Si tiene muchos datos, el MAP convergerá a MLE. Por lo tanto, en el caso de muchos escenarios de datos, siempre es mejor hacer MLE en lugar de MAP.

Heisenbug
fuente
1
No es tan simple.
Michael R. Chernick
@MichaelChernick Podría estar equivocado. Leí esto en la escuela de posgrado. Le pido que me corrija donde me equivoqué.
Heisenbug
El enfoque frecuentista y el enfoque bayesiano son filosóficamente diferentes. El enfoque de frecuencia estima el valor de los parámetros del modelo en función del muestreo repetido. El enfoque bayesiano trata el parámetro como una variable aleatoria. Entonces, en el enfoque bayesiano, deriva la distribución posterior del parámetro combinando una distribución previa con los datos. MAP busca el pico más alto de la distribución posterior, mientras que MLE estima el parámetro solo observando la función de probabilidad de los datos.
Michael R. Chernick
@MichaelChernick - Gracias por tu aporte. Pero MAP no se comporta como un MLE una vez que tenemos datos suficientes. Si rompemos la expresión MAP también obtenemos un término MLE. Con una gran cantidad de datos, el término MLE en el MAP se hace cargo del anterior.
Heisenbug
Depende del previo y la cantidad de datos. Pueden dar resultados similares en muestras grandes. La diferencia está en la interpretación. Mi comentario tenía la intención de mostrar que no es tan simple como tú lo haces. Con una pequeña cantidad de datos, no es simplemente una cuestión de elegir MAP si tiene un previo. Un prior mal elegido puede conducir a una mala distribución posterior y, por lo tanto, a un pobre MAP.
Michael R. Chernick