MLE = Estimación de máxima verosimilitud
MAP = Máximo a posteriori
MLE es intuitivo / ingenuo en el sentido de que comienza solo con la probabilidad de observación dado el parámetro (es decir, la función de probabilidad) y trata de encontrar el parámetro que mejor concuerde con la observación . Pero no tiene en cuenta el conocimiento previo.
El MAP parece más razonable porque toma en consideración el conocimiento previo a través de la regla de Bayes.
Aquí hay una pregunta relacionada, pero la respuesta no es exhaustiva. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d
Entonces, creo que MAP es mucho mejor. ¿Está bien? ¿Y cuándo debo usar cuál?
fuente
Un bayesiano estaría de acuerdo con usted, un frecuentador no. Esta es una cuestión de opinión, perspectiva y filosofía. Creo que hace mucho daño a la comunidad estadística intentar argumentar que un método siempre es mejor que el otro. Muchos problemas tendrán soluciones bayesianas y frecuentistas que son similares siempre y cuando el bayesiano no tenga un antecedente demasiado fuerte.
fuente
Suponiendo que tiene información previa precisa, MAP es mejor si el problema tiene una función de pérdida cero en la estimación. Si la pérdida no es cero-uno (y en muchos problemas del mundo real no lo es), entonces puede ocurrir que el MLE logre una pérdida esperada menor. En estos casos, sería mejor no limitarse a MAP y MLE como las dos únicas opciones, ya que ambas son subóptimas.
fuente
La respuesta corta de @bean lo explica muy bien. Sin embargo, me gustaría señalar la sección 1.1 del documento Gibbs Sampling para los no iniciados por Resnik y Hardisty que lleva el asunto a mayor profundidad. Estoy escribiendo algunas líneas de este documento con modificaciones muy leves (Esta respuesta repite algunas de las cosas que OP sabe por razones de integridad)
MLE
MAPA
Captura
Entonces, con esta trampa, es posible que no queramos usar ninguno de ellos. Además, como ya lo mencionaron Bean y Tim, si tiene que usar uno de ellos, use MAP si lo tiene antes. Si no tiene antecedentes, MAP se reduce a MLE. Los anteriores conjugados ayudarán a resolver el problema analíticamente; de lo contrario, use Gibbs Sampling
fuente
Como sabemos queθ^MAP=argmaxθlogP(θ|D)=argmaxθlogP(D|θ)P(θ)P(D)=argmaxθlogP(D|θ)P(θ)=argmaxθlogP(D|θ)log-likelihood+logP(θ)regularizer
El prior se trata como un regularizador y si conoce la distribución anterior, por ejemplo Gaussin ( ) en regresión lineal, y es mejor agregar eso regularización para un mejor rendimiento.exp(−λ2θTθ)
fuente
Si los datos son menores y tiene antecedentes disponibles: "IR A MAPA". Si tiene muchos datos, el MAP convergerá a MLE. Por lo tanto, en el caso de muchos escenarios de datos, siempre es mejor hacer MLE en lugar de MAP.
fuente