Estoy leyendo este documento "Secuencia a secuencia de aprendizaje con redes neuronales" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf
En "2. El modelo" dice:
El LSTM calcula esta probabilidad condicional obteniendo primero la representación dimensional fija v de la secuencia de entrada (x1,..., XT) dada por el último estado oculto del LSTM, y luego calculando la probabilidad de y1,. . . , yT 'con una formulación estándar LSTM-LM cuyo estado oculto inicial se establece en la representación v de x1,. . . , xT:
Sé lo que es un LSTM, pero ¿qué es un LSTM-LM? He intentado buscarlo en Google pero no puedo encontrar ninguna buena pista.
machine-learning
neural-network
nlp
rnn
machine-translation
Taevanbat Mongol
fuente
fuente
Respuestas:
La definición de un modelo de lenguaje (LM) es una distribución de probabilidad sobre secuencias de palabras.
La simple ilustración de un LM es predecir la siguiente palabra dada la (s) palabra (s) anterior (es).
Por ejemplo, si tengo un modelo de idioma y algunas palabras iniciales:
My
name
aparece despuésMy
.My name
, mi modelo predice que hay una alta probabilidad queis
aparece despuésMy name
.My
->My name
->My name is
->My name is Tom
, y así sucesivamente.Puede pensar en el autocompletado en el teclado de su teléfono inteligente. De hecho, LM es el corazón de los autocompletados.
Entonces, LSTM-LM simplemente está usando un LSTM (y función softmax) para predecir la siguiente palabra dadas sus palabras anteriores.
Por cierto, Language Model no se limita a LSTM, otros RNN (GRU) u otros modelos estructurados. De hecho, también puede usar redes de avance con ventana de contexto / deslizamiento / balanceo para predecir la siguiente palabra dadas sus palabras iniciales.
fuente
En este contexto, creo que significa que toma la representación de salida y aprende una capa softmax adicional que corresponde a los tokens en su modelo de idioma (en este caso, letras).
fuente