Modelado de idiomas: ¿por qué es tan importante sumar 1?

8

En muchas aplicaciones de procesamiento de lenguaje natural, como corrección ortográfica, traducción automática y reconocimiento de voz, utilizamos modelos de lenguaje. Los modelos de lenguaje se crean generalmente contando con qué frecuencia ocurren secuencias de palabras (n-gramos) en un corpus grande y normalizando los recuentos para crear una probabilidad. Para tener en cuenta los n-gramos no vistos, utilizamos métodos de suavizado (vea varios enumerados aquí ) que toman parte de la masa de probabilidad de los n-gramos que están atestiguadas en el modelo y distribuyen esta masa entre n-gramos de orden inferior (secuencias de palabras más cortas ) probabilidades de retroceso.

Muchas de las técnicas de suavizado se vuelven matemáticamente complejas debido a la restricción de que los cálculos deben mantener la distribución como una probabilidad (debe sumar 1).

¿Cuál es la razón de esta restricción? ¿Cuál es la ventaja de usar probabilidades estrictas para la predicción en lugar de puntajes de cualquier otro tipo?

PD La referencia correspondiente al enlace es [Stanley F. Chen y Joshua Goodman (1998), "Un estudio empírico de técnicas de suavizado para el modelado del lenguaje"].

usuario9617
fuente
1
No trabajo en este campo, pero no veo por qué sumar los valores observados y luego dividir cada valor por el total debería hacer que el algoritmo sea difícil de manejar. Me parece que si los modelos son demasiado complejos, lentos o numéricamente inestables (etc.), el problema es más probable en otros lugares.
gung - Restablece a Monica
No dividir los recuentos en primer lugar no es tan malo. Se vuelve más complicado cuando suavizas. Katz, por ejemplo: en.wikipedia.org/wiki/Katz's_back-off_model
user9617
@ user9617 su enlace está muerto, ¿podría actualizarlo o agregar la referencia para que las personas puedan buscar en Google el recurso en el futuro? Gracias de antemano
Antoine
@Antoine hecho. No entiendo muy bien qué sucedió con el PDF al que me estaba vinculando antes, pero este es igual de bueno.
user9617
@ user9617 ¡Gracias +1! Agregué la referencia correspondiente en caso de que el enlace muera nuevamente en el futuro.
Antoine

Respuestas:

5

Las principales ventajas de utilizar probabilidades estrictas son: a) facilidad de interpretación de los números; yb) poder utilizar el teorema de Bayes y otros métodos probabilísticos en análisis posteriores. Sin embargo, en algunas situaciones, es innecesario. Por ejemplo, si solo desea clasificar los resultados sin más análisis, entonces no hay necesidad de normalizar los puntajes.

dcorney
fuente