Ejemplo de estimación máxima a posteriori

11

He estado leyendo sobre la estimación de máxima verosimilitud y la estimación máxima a posteriori y hasta ahora he encontrado ejemplos concretos solo con la estimación de máxima verosimilitud. He encontrado algunos ejemplos abstractos de estimación máxima a posteriori, pero nada concreto aún con números: S

Puede ser muy abrumador, trabajar solo con variables y funciones abstractas, y para no ahogarse en esta abstracción, es bueno relacionar las cosas con el mundo real de vez en cuando. Pero, por supuesto, esta es solo mi observación (y la de otras personas) :)

Por lo tanto, ¿alguien podría darme un ejemplo simple pero concreto de la estimación del máximo A posteriori con números? Eso ayudaría mucho :)

¡Gracias!

Originalmente publiqué esta pregunta en MSE, pero no pude obtener una respuesta allí:

/math/449386/example-of-maximum-a-posteriori-estimation

He seguido las instrucciones dadas aquí en la publicación cruzada:

http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

jjepsuomi
fuente

Respuestas:

6

1er ejemplo

Un caso típico es el etiquetado en el contexto del procesamiento del lenguaje natural. Vea aquí para una explicación detallada. La idea es básicamente poder determinar la categoría léxica de una palabra en una oración (es un sustantivo, un adjetivo, ...). La idea básica es que tiene un modelo de su idioma que consiste en un modelo de markov oculto ( HMM ). En este modelo, los estados ocultos corresponden a las categorías léxicas, y los estados observados a las palabras reales.

El modelo gráfico respectivo tiene la forma,

modelo gráfico de un HMM canónico

y=(y1,...,yN)x=(x1,...,xN)

Una vez entrenado, el objetivo es encontrar la secuencia correcta de categorías léxicas que corresponden a una oración de entrada dada. Esto se formula como encontrar la secuencia de etiquetas que son más compatibles / más probables que hayan sido generadas por el modelo de lenguaje, es decir

f(y)=argmaxxYp(x)p(y|x)

2do ejemplo

En realidad, un mejor ejemplo sería la regresión. No solo porque es más fácil de entender, sino también porque aclara las diferencias entre la máxima verosimilitud (ML) y el máximo a posteriori (MAP).

t

y(x;w)=iwiϕi(x)
ϕ(x)w

t=y(x;w)+ϵ

p(t|w)=N(t|y(x;w))

E(w)=12n(tnwTϕ(xn))2

que produce la conocida solución de error de mínimos cuadrados. Ahora, ML es sensible al ruido y, en ciertas circunstancias, no es estable. MAP le permite elegir mejores soluciones al imponer restricciones a los pesos. Por ejemplo, un caso típico es la regresión de cresta, donde se exige que los pesos tengan una norma lo más pequeña posible,

E(w)=12n(tnwTϕ(xn))2+λkwk2

N(w|0,λ1I)

w=argminwp(w;λ)p(t|w;ϕ)

Observe que en MAP los pesos no son parámetros como en ML, sino variables aleatorias. Sin embargo, tanto ML como MAP son estimadores puntuales (devuelven un conjunto óptimo de pesos, en lugar de una distribución de pesos óptimos).

jpmuc
fuente
+1 Hola @juampa, gracias por tu respuesta :) Pero todavía estoy buscando el ejemplo más concreto :)
jjepsuomi
w
1
O(n3)
f(y)=argmaxxXp(x)p(y|x)