Tengo un histograma, densidad de kernel y una distribución normal ajustada de los retornos del registro financiero, que se transforman en pérdidas (se cambian los signos), y una gráfica QQ normal de estos datos:
El gráfico QQ muestra claramente que las colas no se ajustan correctamente. Pero si miro el histograma y la distribución normal ajustada (azul), incluso los valores alrededor de 0.0 no se ajustan correctamente. Entonces, la gráfica QQ muestra que solo las colas no se ajustan adecuadamente, pero claramente toda la distribución no se ajusta correctamente. ¿Por qué esto no aparece en el gráfico QQ?
data-visualization
normality-assumption
histogram
qq-plot
Stat Tistician
fuente
fuente
Respuestas:
+1 a @NickSabbe, porque 'la trama solo te dice que "algo está mal", que a menudo es la mejor manera de usar una trama qq (ya que puede ser difícil entender cómo interpretarlos). Sin embargo, es posible aprender a interpretar un diagrama qq pensando en cómo hacer uno.
Comenzaría clasificando sus datos, luego ascendería desde el valor mínimo tomando cada uno como un porcentaje igual. Por ejemplo, si tenía 20 puntos de datos, cuando contaba el primero (el mínimo), se decía a sí mismo: "Conté el 5% de mis datos". Seguiría este procedimiento hasta llegar al final, en cuyo punto habría pasado el 100% de sus datos. Estos valores porcentuales se pueden comparar con los mismos valores porcentuales de la normal teórica correspondiente (es decir, la normal con la misma media y DE).
Cuando vaya a trazar estos, descubrirá que tiene problemas con el último valor, que es del 100%, porque cuando ha superado el 100% de una normalidad teórica, está "en" el infinito. Este problema se trata agregando una pequeña constante al denominador en cada punto de sus datos antes de calcular los porcentajes. Un valor típico sería agregar 1 al denominador; por ejemplo, llamaría a su primer (de 20) punto de datos 1 / (20 + 1) = 5%, y su último sería 20 / (20 + 1) = 95%. Ahora, si traza estos puntos contra una normal teórica correspondiente, tendrá un diagrama de pp(para graficar probabilidades contra probabilidades). Tal diagrama probablemente mostraría las desviaciones entre su distribución y una normal en el centro de la distribución. Esto se debe a que el 68% de una distribución normal se encuentra dentro de +/- 1 SD, por lo que los gráficos de pp tienen una resolución excelente allí y una resolución pobre en otros lugares. (Para más información sobre este punto, puede ser útil leer mi respuesta aquí: PP-plots vs. QQ-plots ).
A menudo, estamos más preocupados por lo que está sucediendo en las colas de nuestra distribución. Para obtener una mejor resolución allí (y, por lo tanto, una resolución peor en el medio), podemos construir un diagrama qq en su lugar. Hacemos esto tomando nuestros conjuntos de probabilidades y pasándolos a través del inverso del CDF de la distribución normal (esto es como leer la tabla z en la parte posterior de un libro de estadísticas al revés: lees una probabilidad y lees un z- Puntuación). El resultado de esta operación son dos conjuntos de cuantiles , que pueden representarse entre sí de manera similar.
@whuber tiene razón en que la línea de referencia se traza después (típicamente) al encontrar la línea que mejor se ajusta a través del 50% central de los puntos (es decir, desde el primer cuartil hasta el tercero). Esto se hace para que la trama sea más fácil de leer. Con esta línea, puede interpretar que el gráfico le muestra si los cuantiles de su distribución divergen progresivamente de una verdadera normal a medida que avanza hacia las colas. (Tenga en cuenta que la posición de los puntos más alejados del centro no son realmente independientes de los que están más cerca; por lo tanto, el hecho de que, en su histograma específico, las colas parecen unirse después de que los 'hombros' difieran no significa que los cuantiles ahora son lo mismo otra vez.)
fuente
En pocas palabras: el gráfico QQ muestra la clasificación en la distribución empírica en comparación con la distribución esperada. En su caso (y este es a menudo el caso; siempre con distribuciones simétricas), los rangos cerca del medio serán similares entre lo esperado y lo empírico, por lo tanto, el gráfico QQ está cerca de la línea allí.
No es tan sencillo identificar las observaciones "extrañas" en función de su posición en un gráfico QQ: el gráfico simplemente le dice que "algo está mal", y si sabe más acerca de los datos / distribuciones, puede descubrir donde están los problemas.
fuente
R
basa su ajuste en algunos percentiles moderados, como los cuartiles, mientras que evidentemente el ajuste al histograma se basó en momentos coincidentes.)