Relación de probabilidad de registro en el resumen del documento

9

Inicialmente pregunté esto en el desbordamiento de la pila y me remitieron a este sitio, así que aquí va:

Estoy implementando algunos métodos no supervisados ​​de resumen de documentos basados ​​en selección / extracción de contenido y estoy confundido acerca de lo que mi libro de texto llama la "relación de probabilidad de registro". El libro Speech and Language Processing de Jurafsky & Martin lo describe brevemente como tal:

El LLR para una palabra, generalmente llamada lambda (w), es la relación entre la probabilidad de observar w tanto en la entrada como en el corpus de fondo asumiendo probabilidades iguales en ambos cuerpos, y la probabilidad de observar w en ambos asumiendo diferentes probabilidades para w en la entrada y el corpus de fondo.

Desglosando eso, tenemos el numerador: "la probabilidad de observar w tanto en la entrada como en el corpus de fondo suponiendo probabilidades iguales en ambos cuerpos" - ¿Cómo calculo qué probabilidad usar aquí?

y el denominador: "la probabilidad de observar w en ambos asumiendo diferentes probabilidades para w en la entrada y el corpus de fondo". ¿Es tan simple como la probabilidad de que la palabra aparezca en la entrada multiplicada por la probabilidad de que la palabra aparezca en el corpus? ex:

(recuento (palabra, entrada) / palabras totales en entrada) * (recuento (palabra, corpus) / palabras totales en corpus)

He estado revisando un artículo al que hace referencia mi libro, Métodos precisos para las estadísticas de sorpresa y coincidencia (Dunning 1993), pero me resulta difícil relacionarme con el problema de calcular los valores de LLR para palabras individuales en el resumen basado en la extracción. Cualquier aclaración aquí sería muy apreciada.

Ricardo
fuente
1
¿Puedes decirnos qué es el libro de texto?
parada el
Procesamiento del habla y el lenguaje por Jurafsky y Martin
Richard

Respuestas:

1

Con mi conocimiento limitado, pienso:

  1. "la probabilidad de observar w en la entrada" requiere una distribución para calcular el valor
  2. "la probabilidad de observar w tanto en la entrada como en el corpus de fondo suponiendo probabilidades iguales en ambos cuerpos" significa "la probabilidad de observar w ... dado que la probabilidad de w es igual en ambos cuerpos".

Aquí está mi formulación para ello:


Formulando un poco el problema:

  1. Hipótesis 1: P (w en entrada) = P (w en segundo plano) = p
  2. Hipótesis 2: P (w en entrada) = p1 y P (w en segundo plano) = p2 y p1 p2

La parte crítica es que deberá asumir una distribución aquí. Simplísticamente, asumimos la distribución binomial para generar w en un texto. Dados los datos de muestra, podemos usar la estimación de máxima verosimilitud para calcular el valor de p, p1 y p2, y aquí están:

  1. p = (conteo de w-in-input + count-of-w-in-background) / (input-size + background-size) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

Queremos saber qué hipótesis es más probable. Por lo tanto, calculamos la probabilidad de cada hipótesis y la comparamos entre sí (que es básicamente lo que hace la razón de probabilidad).

Como asumimos la distribución binomial , podemos calcular la probabilidad de tener c1 y c2.

Para la hipótesis 1:

L (c1) = La probabilidad de observar w en la entrada = la probabilidad de alcanzar c1 cuando hay N1 palabras suponiendo que la probabilidad p (o, en otras palabras, seleccionar w para c1 veces de N1 veces) es b (N1, c1 , p) - vea la fórmula de probabilidad binomial aquí

L (c2) = La probabilidad de observar w en segundo plano = la probabilidad de alcanzar c2 cuando hay N2 palabras suponiendo que la probabilidad p es b (N2, c2, p)

Para la Hipótesis 2, podemos usar p1 y p2 en su lugar.

Ahora queremos saber qué hipótesis es más probable; necesitaremos de alguna manera comparar un valor de salida de cada hipótesis.

Pero cada hipótesis tiene 2 valores, L (c1) y L (c2). ¿Cómo podemos comparar qué hipótesis es más probable? --- Elegimos multiplicarlos para lograr una salida de un solo valor. (porque es análogo a la geometría, supongo)

Tanin
fuente
en sus artículos, p, p1 y p2 son estimaciones de p, p1 y p2, ¿verdad?
Xi'an
Si eso es correcto. Estadísticamente hablando, son las estimaciones de máxima verosimilitud dados los datos de la muestra y la distribución binomial.
Tanin
Gracias por señalarlo, por cierto. He mejorado la respuesta.
Tanin