Para las probabilidades (proporciones o acciones) suman 1, la familia encapsula varias propuestas de medidas (índices, coeficientes, lo que sea) en este territorio. Asípi∑pai[ln(1/pi)]b
a=0,b=0 devuelve el número de palabras distintas observadas, que es la más simple de pensar, independientemente de sus diferencias ignorantes entre las probabilidades. Esto siempre es útil aunque solo sea como contexto. En otros campos, este podría ser el número de empresas en un sector, el número de especies observadas en un sitio, etc. En general, llamemos a esto el número de elementos distintos .
a=2,b=0 devuelve la suma de probabilidades al cuadrado de Gini-Turing-Simpson-Herfindahl-Hirschman-Greenberg, también conocida como tasa de repetición o pureza o probabilidad de coincidencia u homocigosidad. A menudo se informa como su complemento o su recíproco, a veces con otros nombres, como impureza o heterocigosidad. En este contexto, es la probabilidad de que dos palabras seleccionadas al azar sean iguales, y su complemento la probabilidad de que dos palabras sean diferentes. El recíproco tiene una interpretación como el número equivalente de categorías igualmente comunes; Esto a veces se llama los números equivalentes. Tal interpretación se puede ver al notar que categorías igualmente comunes (cada probabilidad por lo tanto1−∑p2i1/∑p2ik1/k ) implica para que el recíproco de la probabilidad sea solo . Elegir un nombre es más probable que traicione el campo en el que trabaja. Cada campo rinde homenaje a sus antepasados, pero recomiendo la probabilidad de partido como simple y casi autodefinida.∑p2i=k(1/k)2=1/kk
H exp ( H ) k H = ∑ k ( 1 / k ) ln [ 1 / ( 1 / k ) ] = ln k exp ( H ) = exp ( ln k ) ka=1,b=1 devuelve la entropía de Shannon, a menudo denotada y ya indicada directa o indirectamente en respuestas anteriores. El nombre entropía se ha quedado aquí, por una mezcla de excelentes y no tan buenas razones, incluso ocasionalmente envidia física. Tenga en cuenta que son los números equivalentes para esta medida, como se observa al observar en un estilo similar que categorías igualmente comunes producen , y por lo tanto te devuelve . La entropía tiene muchas propiedades espléndidas; "teoría de la información" es un buen término de búsqueda.Hexp(H)kH=∑k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k
La formulación se encuentra en IJ Good. 1953. Las frecuencias de población de las especies y la estimación de los parámetros de la población. Biometrika 40: 237-264.
www.jstor.org/stable/2333344 .
Otras bases para el logaritmo (por ejemplo, 10 o 2) son igualmente posibles según el gusto o el precedente o la conveniencia, con variaciones simples implicadas para algunas fórmulas anteriores.
Los redescubrimientos independientes (o reinvenciones) de la segunda medida son múltiples en varias disciplinas y los nombres anteriores están lejos de ser una lista completa.
La vinculación de medidas comunes en una familia no solo es ligeramente atractiva matemáticamente. Subraya que existe una opción de medida que depende de los pesos relativos aplicados a los elementos escasos y comunes, y por lo tanto reduce cualquier impresión de adhockery creada por una pequeña profusión de propuestas aparentemente arbitrarias. La literatura en algunos campos está debilitada por documentos e incluso libros basados en afirmaciones tenues de que alguna medida favorecida por el (los) autor (es) es la mejor medida que todos deberían usar.
Mis cálculos indican que los ejemplos A y B no son tan diferentes, excepto en la primera medida:
----------------------------------------------------------------------
| Shannon H exp(H) Simpson 1/Simpson #items
----------+-----------------------------------------------------------
A | 0.656 1.927 0.643 1.556 14
B | 0.684 1.981 0.630 1.588 9
----------------------------------------------------------------------
(Algunos pueden estar interesados en notar que el Simpson nombrado aquí (Edward Hugh Simpson, 1922-) es el mismo que el honrado con el nombre de la paradoja de Simpson. Hizo un trabajo excelente, pero no fue el primero en descubrir nada por lo cual él es nombrado, lo que a su vez es la paradoja de Stigler, que a su vez ...)
No sé si hay una forma común de hacerlo, pero esto me parece análogo a las preguntas de desigualdad en economía. Si trata cada palabra como un individuo y su recuento es comparable al ingreso, le interesa comparar dónde está la bolsa de palabras entre los extremos de cada palabra que tiene el mismo recuento (igualdad total), o una palabra que tiene todos los recuentos y todos los demás cero. La complicación es que los "ceros" no aparecen, no puede tener menos de 1 en una bolsa de palabras como se define generalmente ...
El coeficiente de Gini de A es 0.18, y de B es 0.43, lo que muestra que A es más "igual" que B.
Estoy interesado en otras respuestas también. Obviamente, la varianza pasada de moda en los recuentos también sería un punto de partida, pero tendrías que escalarla de alguna manera para que sea comparable para bolsas de diferentes tamaños y, por lo tanto, diferentes recuentos medios por palabra.
fuente
Este artículo tiene una revisión de las medidas de dispersión estándar utilizadas por los lingüistas. Se enumeran como medidas de dispersión de una sola palabra (miden la dispersión de palabras en secciones, páginas, etc.), pero posiblemente podrían usarse como medidas de dispersión de frecuencia de palabras. Las estadísticas estándar parecen ser:
Los clásicos son:
El texto también menciona dos medidas más de dispersión, pero dependen del posicionamiento espacial de las palabras, por lo que esto no es aplicable al modelo de bolsa de palabras.
fuente
Lo primero que haría es calcular la entropía de Shannon. Puede usar el paquete R
infotheo
, funciónentropy(X, method="emp")
. Si lo envuelvenatstobits(H)
, obtendrá la entropía de esta fuente en bits.fuente
Una posible medida de igualdad que podría usar es la entropía de Shannon escalada . Si tiene un vector de proporciones , esta medida viene dada por:p≡(p1,...,pn)
Esta es una medida a escala con rango con valores extremos que ocurren en los extremos de igualdad o desigualdad. La entropía de Shannon es una medida de información, y la versión a escala permite la comparación entre casos con diferentes números de categorías.0⩽H¯(p)⩽1
Desigualdad extrema: todo el recuento está en alguna categoría . En este caso tenemos y esto nos da .k pi=I(i=k) H¯(p)=0
Igualdad extrema: todos los recuentos son iguales en todas las categorías. En este caso tenemos esto nos da .pi=1/n H¯(p)=1
fuente