Busqué en la web, pero no pude encontrar nada útil.
Básicamente estoy buscando una manera de medir qué tan 'uniformemente' se distribuye un valor. Como en, una distribución distribuida 'uniformemente' como X :
y una distribución distribuida 'desigualmente' Y de aproximadamente la misma media y desviación estándar:
Pero, ¿hay alguna medida de uniformidad m, tal que m (X)> m (Y)? Si no lo hay, ¿cuál sería la mejor manera de crear una medida como esta?
(Captura de pantalla de imágenes de Khan Academy)
Respuestas:
Una medida de "uniformidad" estándar, poderosa, bien entendida, teóricamente bien establecida y frecuentemente implementada es la función Ripley K y su pariente cercano, la función L. Aunque normalmente se usan para evaluar configuraciones de puntos espaciales bidimensionales, el análisis necesario para adaptarlas a una dimensión (que generalmente no se da en las referencias) es simple.
Teoría
La función K estima la proporción media de puntos dentro de una distancia de un punto típico. Para una distribución uniforme en el intervalo [ 0 , 1 ] , la proporción real se puede calcular y (asintóticamente en el tamaño de la muestra) es igual a 1 - ( 1 - d ) 2 . La versión unidimensional apropiada de la función L resta este valor de K para mostrar desviaciones de la uniformidad. Por lo tanto, podríamos considerar normalizar cualquier lote de datos para tener un rango de unidades y examinar su función L para detectar desviaciones alrededor de cero.d [0,1] 1−(1−d)2
Ejemplos trabajados
Para ilustrar , he simulado muestras independientes de tamaño 64 a partir de una distribución uniforme y tracé sus funciones L (normalizadas) para distancias más cortas (desde999 64 a 1 / 3 ), creando así un sobre para estimar la distribución de muestreo de la función L. (Los puntos trazados dentro de este sobre no se pueden distinguir significativamente de la uniformidad). Sobre esto, he trazado las funciones L para muestras del mismo tamaño de una distribución en forma de U, una distribución de mezcla con cuatro componentes obvios y una distribución Normal estándar. Los histogramas de estas muestras (y de sus distribuciones principales) se muestran como referencia, utilizando símbolos de línea para que coincidan con los de las funciones L.0 1/3
Los agudos picos separados de la distribución en forma de U (línea roja discontinua, histograma más a la izquierda) crean grupos de valores muy cercanos. Esto se refleja en una pendiente muy grande en la función L en . La función L luego disminuye, llegando a ser negativa para reflejar los espacios a distancias intermedias.0
La muestra de la distribución normal (línea azul continua, histograma de la derecha) está bastante cerca de la distribución uniforme. En consecuencia, su función L no se aparta de rápidamente. Sin embargo, por distancias de 0,100 0.10 aproximadamente, se ha elevado lo suficiente por encima de la envolvente como para indicar una ligera tendencia a agruparse. El aumento continuo a través de distancias intermedias indica que el agrupamiento es difuso y generalizado (no limitado a algunos picos aislados).
La gran pendiente inicial para la muestra de la distribución de la mezcla (histograma medio) revela la agrupación a pequeñas distancias (menos de ). Al caer a niveles negativos, señala la separación a distancias intermedias. Comparar esto con la función L de la distribución en forma de U es revelador: las pendientes en 00.15 0 , las cantidades en que estas curvas se elevan por encima de y las tasas a las que finalmente descienden de nuevo a 0 proporcionan información sobre la naturaleza del agrupamiento presente en los datos. Cualquiera de estas características podría elegirse como una medida única de "uniformidad" para adaptarse a una aplicación particular.0 0
Estos ejemplos muestran cómo se puede examinar una función L para evaluar las desviaciones de los datos de la uniformidad ("uniformidad") y cómo se puede extraer de ella información cuantitativa sobre la escala y la naturaleza de las desviaciones.
(De hecho, se puede trazar la función L completa, extendiéndose a la distancia normalizada completa de , para evaluar las desviaciones a gran escala de la uniformidad. Sin embargo, ordinariamente, evaluar el comportamiento de los datos a distancias más pequeñas es de mayor importancia).1
Software
R
código para generar esta figura sigue. Comienza definiendo funciones para calcular K y L. Crea una capacidad para simular a partir de una distribución de mezcla. Luego genera los datos simulados y hace los gráficos.fuente
Ripley.L
.Supongo que desea medir qué tan cerca está la distribución del uniforme.
Puede observar la distancia entre la función de distribución acumulativa de distribución uniforme y la función de distribución acumulativa empírica de la muestra.
Ahora, como medida de distancia entre distribuciones, tomemos la suma de distancias en cada punto, es decir
En casos más complicados, debe revisar la norma utilizada anteriormente, pero la idea principal sigue siendo la misma. Si necesita un procedimiento de prueba, puede ser bueno usar normas para las cuales se desarrollan las pruebas (las que señaló @TomMinka).
fuente
Si entiendo su pregunta correctamente, la distribución "más uniforme" para usted sería aquella en la que la variable aleatoria toma todos los valores observados una vez, uniforme en cierto sentido. Si hay "grupos" de observaciones con el mismo valor, eso sería desigual. Suponiendo que estamos hablando de observaciones discretas, tal vez podría observar tanto la diferencia promedio entre los puntos de masa de probabilidad, la diferencia máxima o quizás cuántas observaciones tienen una diferencia del "promedio" sobre un cierto umbral.
Si fuera realmente uniforme en las observaciones, todos los puntos PM deberían tener el mismo valor, y la diferencia entre máximo y mínimo es 0. Cuanto más cercana sea la diferencia promedio a 0, más "par" será el grueso de las observaciones, menor será la diferencia máxima y la menor cantidad de "picos" que hay también demuestran cuán "incluso" son las observaciones empíricas.
Actualización Por supuesto, puede usar una prueba de ji cuadrado para la uniformidad o comparar la función de distribución empírica con un uniforme, pero en esos casos, será penalizado por cualquier "brecha" grande en las observaciones, incluso si las distribuciones de las observaciones todavía son "incluso".
fuente
La medida que está buscando se llama formalmente discrepancia .
La versión unidimensional es la siguiente:
The discrepancy thus compares the actual number of points in a given volume with the expected number of points in that volume, assuming the sequencex1,…,xN is uniformly distributed in I .
Low discrepancy sequences are often called quasirandom sequences.
A basic overview of low discrepancy sequences can be found here, and my blog post "The unreasonable effectiveness of quasirandom sequences" compares various methods when applied to Numerical Integration, mapping points to the surface of a sphere, and quasiperiodic tiling.
fuente
It sounds like you are interested in the pairwise differences of randomly observed values in a particular sequence, as in the case of modeling growth or trend. There are a number of ways to do so in time series analyses. A very basic approach is just a simple linear model regressing the sequence values upon their index values. In the first case, your linear model would give you a singular regression coefficient of 1 (predictiveR2=1 ). In the later case, this would be a coefficient of 1.51 and an R2 of 0.78.
fuente