En "Aprendizaje automático: una perspectiva probabilística" de Kevin Murphy, capítulo 3.2, el autor demuestra el concepto de aprendizaje bayesiano en un ejemplo llamado "juego de números": después de observar muestras de , queremos escoja una hipótesis que describa mejor la regla que generó las muestras. Por ejemplo, "números pares" o "números primos".
Las estimaciones de máximo a posteriori y máxima verosimilitud se definen como:
donde representa las probabilidades anteriores de varias hipótesis y la posterior se define como:
iff , es decir, qué tan probable es que un muestreo uniforme con reemplazo de la hipótesis arroje set . Intuitivamente significa que el posterior es más alto para las hipótesis "más pequeñas". Por ejemplo, las hipótesis "potencias de 2" explican las observaciones mejor que los "números pares".
Todo esto está claro. Sin embargo, estoy confundido acerca de la siguiente oración (aunque intuitivamente tiene mucho sentido):
Dado que el término de probabilidad depende exponencialmente de , y el anterior permanece constante, a medida que obtenemos más y más datos, la estimación de MAP converge hacia la estimación de máxima probabilidad.
Es cierto que la probabilidad depende exponencialmente de , sin embargo, el número exponencial está en el intervalo y como , , por lo que la probabilidad debería desaparecer.
¿Por qué MAP converge a MLE en este caso?
fuente
Respuestas:
Aquí hay dos problemas, primero, por qué el MAP converge al MLE en general (pero no siempre) y el problema de "probabilidad de fuga".
Para el primer número, nos referimos al teorema de Bernstein-von Mises. La esencia de esto es que, a medida que crece el tamaño de la muestra, la información relativa contenida en el anterior y en los datos cambia a favor de los datos, por lo que el posterior se concentra más en torno a la estimación solo de datos del MLE y el pico en realidad converge al MLE (con la advertencia habitual de que se deben cumplir ciertos supuestos). Consulte la página de Wikipedia para obtener una breve descripción.
Para el segundo problema, esto ocurre porque no ha normalizado la densidad posterior. Por la regla de Bayes:
y, aunque como , como observa, también lo hace . Para un poco más de concreción, si asumimos dos hipótesis y , encontramos la posterior por:P(D|h)→0 n→∞ P(D) h1 h2
Tanto el numerador como el denominador tienen términos elevados a la potencia , por lo que tanto como , pero debe quedar claro que la normalización requerida soluciona el problema que de lo contrario esto causaría.N →0 N→∞
fuente