Estoy tratando de encontrar una métrica para medir la falta de uniformidad de una distribución para un experimento que estoy ejecutando. Tengo una variable aleatoria que debería distribuirse uniformemente en la mayoría de los casos, y me gustaría poder identificar (y posiblemente medir el grado de) ejemplos de conjuntos de datos donde la variable no se distribuye uniformemente dentro de cierto margen.
Un ejemplo de tres series de datos, cada una con 10 mediciones que representan la frecuencia de la ocurrencia de algo que estoy midiendo, podría ser algo como esto:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Me gustaría poder distinguir distribuciones como c de aquellas como a y b, y medir la desviación de c de una distribución uniforme. De manera equivalente, si hay una métrica de cuán uniforme es una distribución (¿desviación estándar cercana a cero?), Tal vez pueda usarla para distinguir aquellas con alta varianza. Sin embargo, mis datos pueden tener uno o dos valores atípicos, como el ejemplo c anterior, y no estoy seguro de si eso será fácilmente detectable de esa manera.
Puedo hackear algo para hacer esto en software, pero estoy buscando métodos / enfoques estadísticos para justificar esto formalmente. Tomé una clase hace años, pero las estadísticas no son mi área. Esto parece algo que debería tener un enfoque bien conocido. Lo siento si algo de esto es completamente descabellado. ¡Gracias por adelantado!
Respuestas:
Si no solo tiene las frecuencias sino los recuentos reales, puede usar una bondad de ajuste para cada serie de datos. En particular, desea utilizar la prueba para una distribución uniforme discreta . Esto le ofrece una buena prueba , que le permite descubrir qué series de datos probablemente no se hayan generado mediante una distribución uniforme, pero no proporciona una medida de uniformidad.χ2
Hay otros enfoques posibles, como calcular la entropía de cada serie: la distribución uniforme maximiza la entropía, por lo que si la entropía es sospechosamente baja, concluiría que probablemente no tenga una distribución uniforme. Eso funciona como una medida de uniformidad en algún sentido.
Otra sugerencia sería utilizar una medida como la divergencia Kullback-Leibler , que mide la similitud de dos distribuciones.
fuente
Además de las buenas ideas de @MansT, usted puede proponer otras medidas, pero depende de lo que quiera decir con "falta de uniformidad". Para simplificarlo, veamos 4 niveles. La uniformidad perfecta es fácil de definir:
25 25 25 25
pero, ¿cuál de los siguientes es más no uniforme?
20 20 30 30 o 20 20 25 35
o son igualmente no uniformes?
Si cree que son igualmente no uniformes, podría utilizar una medida basada en la suma de los valores absolutos de las desviaciones de la normalidad, escalada por el máximo posible. Entonces el primero es 5 + 5 + 5 + 5 = 20 y el segundo es 5 + 5 + 0 + 10 = 20. Pero si crees que el segundo es más no uniforme, podrías usar algo basado en las desviaciones al cuadrado, en cuyo caso el el primero obtiene 25 + 25 + 25 + 25 = 100 y el segundo obtiene 25 + 25 + 0 + 100 = 150.
fuente
fuente
Encontré esto recientemente, y para agregar a la respuesta de @ user495285, hasta donde yo entiendo:
Creo que la utilidad de las medidas geométricas se aplica cuando se supone que cada posición (dimensión) del espacio descrito se mide en escalas equivalentes, por ejemplo, todos los recuentos de distribución potencialmente igual. Los mismos supuestos que subyacen al cambio de bases como PCA / SVD probablemente son similares aquí. Pero, de nuevo, no soy matemático, así que lo dejaré abierto a los más informados.
fuente