1er ejemplo
Un caso típico es el etiquetado en el contexto del procesamiento del lenguaje natural. Vea aquí para una explicación detallada. La idea es básicamente poder determinar la categoría léxica de una palabra en una oración (es un sustantivo, un adjetivo, ...). La idea básica es que tiene un modelo de su idioma que consiste en un modelo de markov oculto ( HMM ). En este modelo, los estados ocultos corresponden a las categorías léxicas, y los estados observados a las palabras reales.
El modelo gráfico respectivo tiene la forma,
y =(y1 , . . . , ynorte)x =(x1,..., xnorte)
Una vez entrenado, el objetivo es encontrar la secuencia correcta de categorías léxicas que corresponden a una oración de entrada dada. Esto se formula como encontrar la secuencia de etiquetas que son más compatibles / más probables que hayan sido generadas por el modelo de lenguaje, es decir
F( y) = a r g m a xx ∈Yp ( x ) p ( y | x )
2do ejemplo
En realidad, un mejor ejemplo sería la regresión. No solo porque es más fácil de entender, sino también porque aclara las diferencias entre la máxima verosimilitud (ML) y el máximo a posteriori (MAP).
t
y( x ; w ) = ∑yowyoϕyo( x )
ϕ ( x )w
t = y( x ; w ) + ϵ
p(t|w)=N(t|y(x;w))
E(w)=12∑n(tn−wTϕ(xn))2
que produce la conocida solución de error de mínimos cuadrados. Ahora, ML es sensible al ruido y, en ciertas circunstancias, no es estable. MAP le permite elegir mejores soluciones al imponer restricciones a los pesos. Por ejemplo, un caso típico es la regresión de cresta, donde se exige que los pesos tengan una norma lo más pequeña posible,
E(w)=12∑n(tn−wTϕ(xn))2+λ∑kw2k
N(w|0,λ−1I)
w=argminwp(w;λ)p(t|w;ϕ)
Observe que en MAP los pesos no son parámetros como en ML, sino variables aleatorias. Sin embargo, tanto ML como MAP son estimadores puntuales (devuelven un conjunto óptimo de pesos, en lugar de una distribución de pesos óptimos).