El gráfico QQ no coincide con el histograma

12

Tengo un histograma, densidad de kernel y una distribución normal ajustada de los retornos del registro financiero, que se transforman en pérdidas (se cambian los signos), y una gráfica QQ normal de estos datos:

El gráfico QQ muestra claramente que las colas no se ajustan correctamente. Pero si miro el histograma y la distribución normal ajustada (azul), incluso los valores alrededor de 0.0 no se ajustan correctamente. Entonces, la gráfica QQ muestra que solo las colas no se ajustan adecuadamente, pero claramente toda la distribución no se ajusta correctamente. ¿Por qué esto no aparece en el gráfico QQ?

data-visualization normality-assumption histogram qq-plot Stat Tistician
fuente

10

La curva azul a la izquierda corresponde a una línea hipotética de "mejor ajuste" a la derecha. La línea de la derecha no es la mejor línea de ajuste: es la que mejor se ajusta a los valores medios en la distribución. Si ajustara una "curva de campana" a los dos tercios medios del histograma, en lugar de a todo, esa curva se acercaría a seguir el pico y los lados con una pendiente pronunciada, pero luego estaría lejos demasiado bajo en los hombros y las colas. Eso es exactamente lo que muestra la línea en la gráfica qq: esas gráficas están en perfecto acuerdo; Son los ajustes los que difieren.

whuber

11

+1 a @NickSabbe, porque 'la trama solo te dice que "algo está mal", que a menudo es la mejor manera de usar una trama qq (ya que puede ser difícil entender cómo interpretarlos). Sin embargo, es posible aprender a interpretar un diagrama qq pensando en cómo hacer uno.

Comenzaría clasificando sus datos, luego ascendería desde el valor mínimo tomando cada uno como un porcentaje igual. Por ejemplo, si tenía 20 puntos de datos, cuando contaba el primero (el mínimo), se decía a sí mismo: "Conté el 5% de mis datos". Seguiría este procedimiento hasta llegar al final, en cuyo punto habría pasado el 100% de sus datos. Estos valores porcentuales se pueden comparar con los mismos valores porcentuales de la normal teórica correspondiente (es decir, la normal con la misma media y DE).

Cuando vaya a trazar estos, descubrirá que tiene problemas con el último valor, que es del 100%, porque cuando ha superado el 100% de una normalidad teórica, está "en" el infinito. Este problema se trata agregando una pequeña constante al denominador en cada punto de sus datos antes de calcular los porcentajes. Un valor típico sería agregar 1 al denominador; por ejemplo, llamaría a su primer (de 20) punto de datos 1 / (20 + 1) = 5%, y su último sería 20 / (20 + 1) = 95%. Ahora, si traza estos puntos contra una normal teórica correspondiente, tendrá un diagrama de pp(para graficar probabilidades contra probabilidades). Tal diagrama probablemente mostraría las desviaciones entre su distribución y una normal en el centro de la distribución. Esto se debe a que el 68% de una distribución normal se encuentra dentro de +/- 1 SD, por lo que los gráficos de pp tienen una resolución excelente allí y una resolución pobre en otros lugares. (Para más información sobre este punto, puede ser útil leer mi respuesta aquí: PP-plots vs. QQ-plots ).

A menudo, estamos más preocupados por lo que está sucediendo en las colas de nuestra distribución. Para obtener una mejor resolución allí (y, por lo tanto, una resolución peor en el medio), podemos construir un diagrama qq en su lugar. Hacemos esto tomando nuestros conjuntos de probabilidades y pasándolos a través del inverso del CDF de la distribución normal (esto es como leer la tabla z en la parte posterior de un libro de estadísticas al revés: lees una probabilidad y lees un z- Puntuación). El resultado de esta operación son dos conjuntos de cuantiles , que pueden representarse entre sí de manera similar.

@whuber tiene razón en que la línea de referencia se traza después (típicamente) al encontrar la línea que mejor se ajusta a través del 50% central de los puntos (es decir, desde el primer cuartil hasta el tercero). Esto se hace para que la trama sea más fácil de leer. Con esta línea, puede interpretar que el gráfico le muestra si los cuantiles de su distribución divergen progresivamente de una verdadera normal a medida que avanza hacia las colas. (Tenga en cuenta que la posición de los puntos más alejados del centro no son realmente independientes de los que están más cerca; por lo tanto, el hecho de que, en su histograma específico, las colas parecen unirse después de que los 'hombros' difieran no significa que los cuantiles ahora son lo mismo otra vez.)

$x$ $-3$ $y$ $-.2$ datos en esa cola de su distribución que en una normal teórica. En otras palabras:

si ambas colas giran en sentido antihorario, tiene colas pesadas ( leptokurtosis ),
si ambas colas giran en el sentido de las agujas del reloj, tienes colas claras (platykurtosis),
si su cola derecha gira en sentido antihorario y su cola izquierda gira en sentido horario, tiene una inclinación derecha
si su cola izquierda gira en sentido antihorario y su cola derecha gira en sentido horario, se ha torcido

gung - Restablece a Monica
fuente

Encuentro tales rúbricas menos que satisfactorias. Una es que no tienen conexión directa con los principios detrás de la trama: tienen que ser memorizados por separado (y pueden estar completamente confundidos por una memoria defectuosa). Otro (en este caso) es que es demasiado complicado para ser confiablemente útil. Otra más es que la falta de estandarización en cómo se dibujan tales gráficos puede hacer que este método sea incorrecto cuando se aplica a un diagrama qq realizado por un procedimiento diferente. Pero las tramas qq son fáciles de interpretar: vea mi intento de una explicación a la mitad cuantdec.com/envstats/notes/class_03/probability.htm .

whuber

5

En pocas palabras: el gráfico QQ muestra la clasificación en la distribución empírica en comparación con la distribución esperada. En su caso (y este es a menudo el caso; siempre con distribuciones simétricas), los rangos cerca del medio serán similares entre lo esperado y lo empírico, por lo tanto, el gráfico QQ está cerca de la línea allí.

No es tan sencillo identificar las observaciones "extrañas" en función de su posición en un gráfico QQ: el gráfico simplemente le dice que "algo está mal", y si sabe más acerca de los datos / distribuciones, puede descubrir donde están los problemas.

Nick Sabbe
fuente

1

Sostendría la conclusión opuesta, Nick: la gráfica qq hace que sea mucho más fácil identificar y evaluar resultados "extraños" en comparación con el cuerpo de datos, mientras que el histograma tiende a ocultar mucho de lo que revela la gráfica qq. El problema aquí no es si el gráfico qq está cerca de una línea: se trata de qué línea fue elegida por el software como referencia para el gráfico. (Sospecho que Rbasa su ajuste en algunos percentiles moderados, como los cuartiles, mientras que evidentemente el ajuste al histograma se basó en momentos coincidentes.)

whuber

1

@whuber: Personalmente, me gusta ver ambos si es posible (principalmente porque "leo" los histogramas más fácilmente que los gráficos QQ). Pero tienes razón y yo estoy corregido.

Nick Sabbe

Y tienes razón en que las dos técnicas son complementarias. Por ejemplo, la bimodalidad tiende a ser más fácil de detectar (y cuantificar) en un histograma que en un gráfico qq. Creo que con la práctica, tanto los histogramas como los gráficos qq se vuelven fáciles de leer. Las gráficas QQ pueden tardar un poco más en aprender solo porque no tienen una forma estándar de presentación: siempre debe verificar qué eje es el valor y cuál el cuantil, y a veces los cuantiles se convierten en "valores equivalentes" (en lugar de Estandarizado).

whuber

El gráfico QQ no coincide con el histograma

Respuestas: