Estoy trabajando con un pequeño conjunto de datos (21 observaciones) y tengo el siguiente gráfico QQ normal en R:
Al ver que la trama no admite la normalidad, ¿qué podría inferir sobre la distribución subyacente? Me parece que una distribución más sesgada a la derecha encajaría mejor, ¿no es así? Además, ¿qué otras conclusiones podemos sacar de los datos?
Respuestas:
Si los valores se encuentran a lo largo de una línea, la distribución tiene la misma forma (hasta la ubicación y la escala) que la distribución teórica que hemos supuesto.
Comportamiento local : al observar los valores de muestra ordenados en el eje yy los cuantiles esperados (aproximados) en el eje x, podemos identificar cómo los valores en alguna sección del gráfico difieren localmente de una tendencia lineal general al ver si los valores están más o menos concentrados de lo que supondría la distribución teórica en esa sección de una gráfica:
Como vemos, los puntos menos concentrados aumentan más y más puntos concentrados de lo que se supone aumentan menos rápidamente de lo que sugeriría una relación lineal general, y en los casos extremos corresponden a una brecha en la densidad de la muestra (se muestra como un salto casi vertical) o un pico de valores constantes (valores alineados horizontalmente). Esto nos permite detectar una cola pesada o una cola ligera y, por lo tanto, un sesgo mayor o menor que la distribución teórica, y así sucesivamente.
Apariencia general:
Así es como se ven los gráficos QQ (para elecciones particulares de distribución) en promedio :
Pero la aleatoriedad tiende a oscurecer las cosas, especialmente con muestras pequeñas:
Tenga en cuenta que en los resultados pueden ser mucho más variables de lo que se muestra allí: generé varios conjuntos de seis parcelas y elegí un conjunto 'agradable' donde podría ver la forma en las seis parcelas al mismo tiempo. A veces, las relaciones rectas se ven curvas, las relaciones curvas se ven rectas, las colas pesadas solo se ven sesgadas, y así sucesivamente, con muestras tan pequeñas, a menudo la situación puede ser mucho menos clara:n=21
Es posible discernir más características que aquellas (como la discreción, por ejemplo), pero con , incluso esas características básicas pueden ser difíciles de detectar; no deberíamos tratar de 'sobreinterpretar' cada pequeño meneo. A medida que los tamaños de muestra se hacen más grandes, en general, las parcelas se 'estabilizan' y las características se vuelven más claramente interpretables en lugar de representar ruido. [Con algunas distribuciones de cola muy pesada, el valor atípico grande y raro podría evitar que la imagen se estabilice bien incluso con tamaños de muestra bastante grandes.]n=21
También puede encontrar la sugerencia aquí útil cuando intente decidir cuánto debe preocuparse por una cantidad particular de curvatura o ondulación.
Una guía más adecuada para la interpretación en general también incluiría pantallas con tamaños de muestra cada vez más pequeños.
fuente
Hice una aplicación brillante para ayudar a interpretar la trama QQ normal. Prueba este enlace.
En esta aplicación, puede ajustar la asimetría, la cola (curtosis) y la modalidad de datos y puede ver cómo cambian el histograma y la trama QQ. Por el contrario, puede usarlo de una manera que, dado el patrón del gráfico QQ, luego verifique cómo debería ser la asimetría, etc.
Para más detalles, consulte la documentación en el mismo.
Me di cuenta de que no tengo suficiente espacio libre para proporcionar esta aplicación en línea. Como petición, proporcionaré los tres trozos de código:
sample.R
,server.R
yui.R
aquí. Aquellos que estén interesados en ejecutar esta aplicación pueden cargar estos archivos en Rstudio y luego ejecutarlos en su propia PC.El
sample.R
archivo:El
server.R
archivo:Finalmente, el
ui.R
archivo:fuente
El profesor ofrece una explicación muy útil (e intuitiva). Philippe Rigollet en el curso MIT MOOC: 18.650 estadísticas para aplicaciones, otoño de 2016 - ver video en 45 minutos
https://www.youtube.com/watch?v=vMaKx9fmJHE
Copié groseramente su diagrama que guardo en mis notas, ya que me parece muy útil.
En el ejemplo 1, en el diagrama superior izquierdo, vemos que en la cola derecha el cuantil empírico (o muestra) es menor que el cuantil teórico
Qe <Qt
fuente
Dado que este hilo se ha considerado como una publicación definitiva de StackExchange "cómo interpretar el diagrama qq normal", me gustaría señalar a los lectores una relación matemática precisa y agradable entre el diagrama qq normal y el exceso de estadística de curtosis.
Aquí está:
https://stats.stackexchange.com/a/354076/102879
A continuación se ofrece un resumen breve (y demasiado simplificado) (consulte el enlace para ver enunciados matemáticos más precisos): en realidad puede ver el exceso de curtosis en el gráfico qq normal como la distancia promedio entre los cuantiles de datos y los cuantiles normales teóricos correspondientes, ponderados por distancia de los datos a la media. Por lo tanto, cuando los valores absolutos en las colas de la gráfica qq generalmente se desvían de los valores normales esperados en las direcciones extremas, tiene un exceso positivo de curtosis.
Debido a que la curtosis es el promedio de estas desviaciones ponderadas por las distancias de la media, los valores cerca del centro de la gráfica qq tienen poco impacto en la curtosis. Por lo tanto, el exceso de curtosis no está relacionado con el centro de la distribución, donde está el "pico". Más bien, el exceso de curtosis está determinado casi por completo por la comparación de las colas de la distribución de datos con la distribución normal.
fuente