Inicialmente pregunté esto en el desbordamiento de la pila y me remitieron a este sitio, así que aquí va:
Estoy implementando algunos métodos no supervisados de resumen de documentos basados en selección / extracción de contenido y estoy confundido acerca de lo que mi libro de texto llama la "relación de probabilidad de registro". El libro Speech and Language Processing de Jurafsky & Martin lo describe brevemente como tal:
El LLR para una palabra, generalmente llamada lambda (w), es la relación entre la probabilidad de observar w tanto en la entrada como en el corpus de fondo asumiendo probabilidades iguales en ambos cuerpos, y la probabilidad de observar w en ambos asumiendo diferentes probabilidades para w en la entrada y el corpus de fondo.
Desglosando eso, tenemos el numerador: "la probabilidad de observar w tanto en la entrada como en el corpus de fondo suponiendo probabilidades iguales en ambos cuerpos" - ¿Cómo calculo qué probabilidad usar aquí?
y el denominador: "la probabilidad de observar w en ambos asumiendo diferentes probabilidades para w en la entrada y el corpus de fondo". ¿Es tan simple como la probabilidad de que la palabra aparezca en la entrada multiplicada por la probabilidad de que la palabra aparezca en el corpus? ex:
(recuento (palabra, entrada) / palabras totales en entrada) * (recuento (palabra, corpus) / palabras totales en corpus)
He estado revisando un artículo al que hace referencia mi libro, Métodos precisos para las estadísticas de sorpresa y coincidencia (Dunning 1993), pero me resulta difícil relacionarme con el problema de calcular los valores de LLR para palabras individuales en el resumen basado en la extracción. Cualquier aclaración aquí sería muy apreciada.
fuente
Respuestas:
Con mi conocimiento limitado, pienso:
Aquí está mi formulación para ello:
Formulando un poco el problema:
La parte crítica es que deberá asumir una distribución aquí. Simplísticamente, asumimos la distribución binomial para generar w en un texto. Dados los datos de muestra, podemos usar la estimación de máxima verosimilitud para calcular el valor de p, p1 y p2, y aquí están:
Queremos saber qué hipótesis es más probable. Por lo tanto, calculamos la probabilidad de cada hipótesis y la comparamos entre sí (que es básicamente lo que hace la razón de probabilidad).
Como asumimos la distribución binomial , podemos calcular la probabilidad de tener c1 y c2.
Para la hipótesis 1:
L (c1) = La probabilidad de observar w en la entrada = la probabilidad de alcanzar c1 cuando hay N1 palabras suponiendo que la probabilidad p (o, en otras palabras, seleccionar w para c1 veces de N1 veces) es b (N1, c1 , p) - vea la fórmula de probabilidad binomial aquí
L (c2) = La probabilidad de observar w en segundo plano = la probabilidad de alcanzar c2 cuando hay N2 palabras suponiendo que la probabilidad p es b (N2, c2, p)
Para la Hipótesis 2, podemos usar p1 y p2 en su lugar.
Ahora queremos saber qué hipótesis es más probable; necesitaremos de alguna manera comparar un valor de salida de cada hipótesis.
Pero cada hipótesis tiene 2 valores, L (c1) y L (c2). ¿Cómo podemos comparar qué hipótesis es más probable? --- Elegimos multiplicarlos para lograr una salida de un solo valor. (porque es análogo a la geometría, supongo)
fuente