Cuantificación QQ plot

10

El diagrama qq se puede usar para visualizar cuán similares son dos distribuciones (por ejemplo, visualizar la similitud de una distribución con una distribución normal, pero también para comparar dos distribuciones de datos artibrary). ¿Hay alguna estadística que genere una medida numérica más objetiva que represente su similitud (preferiblemente en forma normalizada (0 <= x <= 1))? El coeficiente de Gini se usa, por ejemplo, en economía cuando se trabaja con curvas de Lorenz; ¿Hay algo para las parcelas QQ?

Amplio
fuente

Respuestas:

8

Como digo en respuesta a su comentario sobre su pregunta anterior, consulte la prueba de Kolmogorov-Smirnov. Utiliza la distancia absoluta máxima entre dos funciones de distribución acumulativa (concebida alternativamente como la distancia absoluta máxima de la curva en el gráfico QQ desde la línea de 45 grados) como estadística. La prueba KS se puede encontrar en R usando el comando ks.test()en la biblioteca 'stats'. Aquí hay más información sobre su uso de R.

Charlie
fuente
Tenga en cuenta que (según tengo entendido), la prueba KS es para probar datos empíricos contra una distribución a priori. No es apropiado para comparar dos distribuciones empíricas, ni es apropiado comparar datos empíricos con una distribución a priori cuyos valores de parámetros se estimaron a partir de los datos empíricos.
Mike Lawrence el
44
@ Mike, puede usar la prueba KS para comparar dos distribuciones derivadas empíricamente, consulte las respuestas y comentarios anteriores de Charlie stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/…
Andy W
@ Andy, Ah, tomé el punto 3 de itl.nist.gov/div898/handbook/eda/section3/eda35g.htm por tener el corolario de que no puedes comparar dos CDF empíricos, pero veo que mi suposición no era apropiado. Es bueno saberlo, gracias!
Mike Lawrence
2
Sin embargo, el punto 3 implica que no puede usar KS para probar si sus datos provienen de una distribución normal con media y SD estimados a partir de los datos . Este es un error popular entre los estudiantes de psicología que conozco.
Stephan Kolassa
1
(+1) El aspecto superior de esta respuesta es que el estadístico KS se puede leer directamente del gráfico QQ.
whuber
2

I recientemente utilizado la correlación entre la CDF empírica y la CDF equipada para cuantificar de bondad de ajuste, y me pregunto si este enfoque también podría ser útil en el caso actual, que como lo entiendo implica la comparación de dos conjuntos de datos empíricos. La interpolación podría ser necesaria si hay diferentes números de observaciones entre los conjuntos.

Mike Lawrence
fuente
Su artículo incluye figuras muy bonitas :)
chl
@chi: Todos fueron creados en R usando ggplot2. ¡Es un fantástico sistema de producción de gráficos!
Mike Lawrence
¿Qué quieres decir con CDF ajustado?
Ampleforth
@Ampleforth, en ese documento, ajusté una distribución a datos empíricos, por lo que por "CDF ajustado" me refería al CDF teórico de la distribución ajustada. Lo siento, veo cómo podría haber sido más claro.
Mike Lawrence
Oh, por favor no te disculpes. Mi falta de estadísticas es bastante grande y ese es el único problema aquí;) Además, no leí su documento, sino que solo miré a través de sus gráficos que realmente me gustaron.
Ampleforth
1

Diría que la forma más o menos canónica de comparar dos distribuciones sería una prueba de ji cuadrado. Sin embargo, la estadística no está normalizada, y depende de cómo elija los contenedores. El último punto puede verse, por supuesto, como una característica, no como un error: por ejemplo, elegir bins apropiadamente le permite buscar más de cerca la similitud en las colas que en el medio de las distribuciones.

Stephan Kolassa
fuente
1

Una medida bastante directa de la "cercanía" a la linealidad en un gráfico QQ sería una estadística de prueba de Shapiro-Francia (que está estrechamente relacionada con el Shapiro-Wilk más conocido y puede considerarse como una simple aproximación).

La estadística de Shapiro-Francia es la correlación al cuadrado entre los valores de datos ordenados y las estadísticas de orden normal esperadas (a veces etiquetadas como "cuantiles teóricos"), es decir, debe ser el cuadrado de la correlación que se ve en la gráfica, un aspecto bastante directo medida resumen

(El Shapiro-Wilk es similar pero tiene en cuenta las correlaciones entre las estadísticas de la orden; tiene una interpretación similar a la de Shapiro-Francia y es casi tan útil como un resumen de la gráfica QQ).

De cualquier manera, para un resumen de un solo número de lo que muestra la gráfica QQ, una de esas podría ser una forma adecuada de resumir la gráfica.

1W

n1W)nn(1W)nnnlog(n)log(n)n

Glen_b -Reinstate a Monica
fuente