¿Cómo medir la dispersión en los datos de frecuencia de palabras?

10

¿Cómo puedo cuantificar la cantidad de dispersión en un vector de recuento de palabras? Estoy buscando una estadística que sea alta para el documento A, porque contiene muchas palabras diferentes que ocurren con poca frecuencia, y baja para el documento B, porque contiene una palabra (o algunas palabras) que ocurren a menudo.

En términos más generales, ¿cómo se mide la dispersión o "propagación" en los datos nominales?

¿Existe una forma estándar de hacerlo en la comunidad de análisis de texto?

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

dB '
fuente

Respuestas:

10

Para las probabilidades (proporciones o acciones) suman 1, la familia encapsula varias propuestas de medidas (índices, coeficientes, lo que sea) en este territorio. Asípipia[ln(1/pi)]b

  1. a=0,b=0 devuelve el número de palabras distintas observadas, que es la más simple de pensar, independientemente de sus diferencias ignorantes entre las probabilidades. Esto siempre es útil aunque solo sea como contexto. En otros campos, este podría ser el número de empresas en un sector, el número de especies observadas en un sitio, etc. En general, llamemos a esto el número de elementos distintos .

  2. a=2,b=0 devuelve la suma de probabilidades al cuadrado de Gini-Turing-Simpson-Herfindahl-Hirschman-Greenberg, también conocida como tasa de repetición o pureza o probabilidad de coincidencia u homocigosidad. A menudo se informa como su complemento o su recíproco, a veces con otros nombres, como impureza o heterocigosidad. En este contexto, es la probabilidad de que dos palabras seleccionadas al azar sean iguales, y su complemento la probabilidad de que dos palabras sean diferentes. El recíproco tiene una interpretación como el número equivalente de categorías igualmente comunes; Esto a veces se llama los números equivalentes. Tal interpretación se puede ver al notar que categorías igualmente comunes (cada probabilidad por lo tanto1pi21/pi2k1/k ) implica para que el recíproco de la probabilidad sea solo . Elegir un nombre es más probable que traicione el campo en el que trabaja. Cada campo rinde homenaje a sus antepasados, pero recomiendo la probabilidad de partido como simple y casi autodefinida.pi2=k(1/k)2=1/kk

  3. H exp ( H ) k H = k ( 1 / k ) ln [ 1 / ( 1 / k ) ] = ln k exp ( H ) = exp ( ln k ) ka=1,b=1 devuelve la entropía de Shannon, a menudo denotada y ya indicada directa o indirectamente en respuestas anteriores. El nombre entropía se ha quedado aquí, por una mezcla de excelentes y no tan buenas razones, incluso ocasionalmente envidia física. Tenga en cuenta que son los números equivalentes para esta medida, como se observa al observar en un estilo similar que categorías igualmente comunes producen , y por lo tanto te devuelve . La entropía tiene muchas propiedades espléndidas; "teoría de la información" es un buen término de búsqueda.Hexp(H)kH=k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k

La formulación se encuentra en IJ Good. 1953. Las frecuencias de población de las especies y la estimación de los parámetros de la población. Biometrika 40: 237-264. www.jstor.org/stable/2333344 .

Otras bases para el logaritmo (por ejemplo, 10 o 2) son igualmente posibles según el gusto o el precedente o la conveniencia, con variaciones simples implicadas para algunas fórmulas anteriores.

Los redescubrimientos independientes (o reinvenciones) de la segunda medida son múltiples en varias disciplinas y los nombres anteriores están lejos de ser una lista completa.

La vinculación de medidas comunes en una familia no solo es ligeramente atractiva matemáticamente. Subraya que existe una opción de medida que depende de los pesos relativos aplicados a los elementos escasos y comunes, y por lo tanto reduce cualquier impresión de adhockery creada por una pequeña profusión de propuestas aparentemente arbitrarias. La literatura en algunos campos está debilitada por documentos e incluso libros basados ​​en afirmaciones tenues de que alguna medida favorecida por el (los) autor (es) es la mejor medida que todos deberían usar.

Mis cálculos indican que los ejemplos A y B no son tan diferentes, excepto en la primera medida:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(Algunos pueden estar interesados ​​en notar que el Simpson nombrado aquí (Edward Hugh Simpson, 1922-) es el mismo que el honrado con el nombre de la paradoja de Simpson. Hizo un trabajo excelente, pero no fue el primero en descubrir nada por lo cual él es nombrado, lo que a su vez es la paradoja de Stigler, que a su vez ...)

Nick Cox
fuente
Esta es una respuesta brillante (y mucho más fácil de seguir que el 1953 Good paper;)). ¡Gracias!
dB '
7

No sé si hay una forma común de hacerlo, pero esto me parece análogo a las preguntas de desigualdad en economía. Si trata cada palabra como un individuo y su recuento es comparable al ingreso, le interesa comparar dónde está la bolsa de palabras entre los extremos de cada palabra que tiene el mismo recuento (igualdad total), o una palabra que tiene todos los recuentos y todos los demás cero. La complicación es que los "ceros" no aparecen, no puede tener menos de 1 en una bolsa de palabras como se define generalmente ...

El coeficiente de Gini de A es 0.18, y de B es 0.43, lo que muestra que A es más "igual" que B.

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

Estoy interesado en otras respuestas también. Obviamente, la varianza pasada de moda en los recuentos también sería un punto de partida, pero tendrías que escalarla de alguna manera para que sea comparable para bolsas de diferentes tamaños y, por lo tanto, diferentes recuentos medios por palabra.

Peter Ellis
fuente
Buena decisión: ¡el coeficiente de Gini fue mi primer pensamiento también! Sin embargo, al buscar en Google Académico, no pude encontrar muchos precedentes para usarlo con datos de texto. Me pregunto si la comunidad de recuperación de texto / PNL tiene una medida más estándar para este tipo de cosas ...
dB
Cuidado: según mi recuento, Gini ha recibido como nombre al menos tres medidas diferentes. La historia es defendible en cada caso, pero la gente necesita ver la fórmula utilizada.
Nick Cox
1
Buen punto @ NickCox: estaba pensando en este, como se usa para la desigualdad, que creo que es el uso más común: ellisp.github.io/blog/2017/08/05/weighted-gini He visto diferentes métodos de estimándolo / calculándolo pero todos con la misma definición básica, en este contexto. Sé que la gente de aprendizaje automático lo usa para algo diferente, pero no he visto su excusa ...
Peter Ellis
1
@dB 'Encontré este documento sobre el uso de Gini en una aplicación de texto: actions.mlr.press/v10/sanasam10a/sanasam10a.pdf (prefiero esta respuesta a la aceptada, simplemente porque hace el mejor trabajo de distinguir su A y B!)
Darren Cook
5

Este artículo tiene una revisión de las medidas de dispersión estándar utilizadas por los lingüistas. Se enumeran como medidas de dispersión de una sola palabra (miden la dispersión de palabras en secciones, páginas, etc.), pero posiblemente podrían usarse como medidas de dispersión de frecuencia de palabras. Las estadísticas estándar parecen ser:

  1. máximo minimo
  2. Desviación Estándar
  3. CV
  4. χ2

Los clásicos son:

  1. D=1CVn1
  2. S=N(i=1nni)2n
  3. D2=(log2Ni=1nnilog2niN)/log2(n)
  4. D3=1χ24N

Nnni

El texto también menciona dos medidas más de dispersión, pero dependen del posicionamiento espacial de las palabras, por lo que esto no es aplicable al modelo de bolsa de palabras.

  • Nota : Cambié la notación original del artículo, para que las fórmulas sean más consistentes con la notación estándar.
Chris Novak
fuente
fxi
vi
1
¿Por qué las ecuaciones de la fuente no se copian exactamente (no es solo un cambio de etiquetas en las expresiones sino también un cambio de la expresión, o al menos no un cambio consistente de las etiquetas / variables)?
Sextus Empiricus
@ NickCox Gracias por atrapar eso, corregí las fórmulas para incluir solo cantidades definidas.
Chris Novak
@MartijnWeterings Tienes razón en que originalmente el artículo trataba sobre métricas de dispersión de una sola palabra, aunque parecen generalizarse trivialmente a la frecuencia de palabras. Por si acaso incluí esa información en la respuesta. Cambié la notación original para hacerlos aplicables al modelo de bolsa de palabras (reemplazando f con N y v_i con n_i). Agregué una nota para significar esto, pero si crees que todavía es engañoso, puedo proporcionar una justificación más larga en la respuesta.
Chris Novak
4

Lo primero que haría es calcular la entropía de Shannon. Puede usar el paquete R infotheo, función entropy(X, method="emp"). Si lo envuelve natstobits(H), obtendrá la entropía de esta fuente en bits.

Alexey Burnakov
fuente
3

Una posible medida de igualdad que podría usar es la entropía de Shannon escalada . Si tiene un vector de proporciones , esta medida viene dada por:p(p1,...,pn)

H¯(p)pilnpilnn.

Esta es una medida a escala con rango con valores extremos que ocurren en los extremos de igualdad o desigualdad. La entropía de Shannon es una medida de información, y la versión a escala permite la comparación entre casos con diferentes números de categorías.0H¯(p)1

  • Desigualdad extrema: todo el recuento está en alguna categoría . En este caso tenemos y esto nos da .kpi=I(i=k)H¯(p)=0

  • Igualdad extrema: todos los recuentos son iguales en todas las categorías. En este caso tenemos esto nos da .pi=1/nH¯(p)=1

Ben - Restablece a Monica
fuente