¿Cuáles son los pros y los contras de aplicar información mutua puntual en una matriz de coincidencia de palabras antes de SVD?

11

Una forma de generar incrustaciones de palabras es la siguiente ( espejo ):

  1. Obtenga un corpus, por ejemplo, "Me gusta volar. Me gusta la PNL. Me gusta el aprendizaje profundo".
  2. Construya la matriz de concordancia de palabras a partir de ella:

ingrese la descripción de la imagen aquí

  1. Realice SVD en y mantenga las primeras columnas de U.Xk

ingrese la descripción de la imagen aquí

Cada fila de la submatriz será la palabra incrustada de la palabra que representa la fila (fila 1 = "I", fila 2 = "me gusta", ...).U1:|V|,1:k

Entre los pasos 2 y 3, a veces se aplica información mutua puntual (p . Ej., A. Herbelot y EM Vecchi. 2015. Construyendo un mundo compartido: mapeo de espacios semánticos distribuidos en modelos teóricos . Lisboa, Portugal .

¿Cuáles son los pros y los contras de aplicar información mutua puntual en una matriz de coincidencia de palabras antes de SVD?

Franck Dernoncourt
fuente

Respuestas:

11

según el libro de Dan Jurafsky y James H. Martin :

"Sin embargo, resulta que la frecuencia simple no es la mejor medida de asociación entre las palabras. Un problema es que la frecuencia bruta es muy sesgada y no muy discriminatoria. Si queremos saber qué tipos de contextos comparten el albaricoque y la piña pero no por medios digitales e información, no vamos a obtener una buena discriminación de palabras como, it o they, que ocurren con frecuencia con todo tipo de palabras y no son informativas sobre ninguna palabra en particular ".

a veces reemplazamos esta frecuencia cruda con información mutua positiva puntual:

PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)

PMI por sí solo muestra cuánto es posible observar una palabra w con una palabra de contexto C en comparación con observarlas independientemente. En PPMI solo mantenemos valores positivos de PMI. Pensemos cuándo PMI es + o - y por qué solo conservamos los negativos:

¿Qué significa PMI positivo?

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • sucede cuando y ocurren mutuamente más que individualmente como patada y pelota. ¡Nos gustaría conservarlos!wc

¿Qué significa PMI negativo?

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • ¡significa que tanto como o uno de ellos tienden a ocurrir individualmente! Puede indicar estadísticas poco confiables debido a datos limitados, de lo contrario, muestra coincidencias no informativas, por ejemplo, 'la' y 'bola'. ('the' ocurre con la mayoría de las palabras también.)wc

El PMI o, en particular, el PPMI nos ayuda a detectar tales situaciones con una ocurrencia informativa.

Maryam Hnr
fuente