QQ plot en Python

11

Generé un diagrama qq usando el siguiente código. Sé que qq plot se usa para verificar si los datos se distribuyen normalmente o no. Mi pregunta es ¿qué indican las etiquetas de los ejes xey en el gráfico qq y qué indica ese valor cuadrado r?

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

ingrese la descripción de la imagen aquí

Sé que ya hay una discusión sobre qq plot , pero no pude entender el concepto a pesar de pasar por esa discusión.

Elizabeth Susan Joseph
fuente
44
R2R2R2
R2R2R2R2
R2R2
¿Estás seguro de que trazas una trama QQ? help(probplot)estados: probplotgenera una gráfica de probabilidad, que no debe confundirse con una gráfica QQ o PP.
abukaj

Respuestas:

10

La respuesta de Macond es precisa, sin embargo, desde la publicación original, pensé que podría ser útil simplificar un poco la palabrería.

Un gráfico QQ significa un "gráfico cuantil-cuantil" .

Es un diagrama donde los ejes se transforman a propósito para hacer que una distribución normal (o gaussiana) aparezca en línea recta . En otras palabras, una distribución perfectamente normal seguiría exactamente una línea con pendiente = 1 e intercepción = 0.

Por lo tanto, si la gráfica no parece ser, aproximadamente, una línea recta, la distribución subyacente no es normal. Si se dobla, entonces hay más valores de "alto volante" de lo esperado, por ejemplo. (El enlace proporciona más ejemplos).


  1. ¿Qué representan las etiquetas x & y?

Los cuantiles teóricos se colocan a lo largo del eje x. Es decir, el eje x no son sus datos , es simplemente una expectativa de dónde deberían haber estado sus datos, si fueran normales.

Los datos reales se trazan a lo largo del eje y.

Los valores son las desviaciones estándar de la media. Entonces, 0es la media de los datos, 1es 1 desviación estándar anterior, etc. Esto significa, por ejemplo, que 68.27%todos sus datos deben estar entre -1 y 1, si tiene una distribución normal.

  1. R2

R2R2R2R2


Por último, hay un diagrama similar que rara vez se usa llamado diagrama de pp . Este gráfico es más útil si está interesado en centrarse en dónde se encuentra la mayor parte de los datos, en lugar de los extremos.

Mike Williamson
fuente
1
La palabra sesgada no es la mejor opción aquí: yo diría transformado .
Nick Cox
Gran explicación ¿Puede explicar cómo se genera el eje x (valores esperados)?
Vivek Ananthan
1

El eje Y muestra valores de distribución observada y el eje X, valores de distribución teórica.

Cada punto es un cuantil. Digamos que si hubiera 100 puntos en la gráfica, el primer punto (el que está en el lado inferior izquierdo) indica un límite superior para un intervalo, y cuando se ordena de menor a mayor, el 1 por ciento más pequeño de los puntos de datos de La distribución correspondiente permanece en este intervalo. Del mismo modo, el segundo punto es el límite superior de un intervalo, donde se encuentra el 2 por ciento más pequeño de los puntos de datos de la distribución. Este es el concepto de cuantil. Pero no se limita a un caso con 100 intervalos, es un concepto general y puede tener tantos intervalos como sea posible, entonces tendrá tantos cuantiles que describen los límites de los intervalos.

Utilicé puntos de datos a lo largo de mi respuesta, como puntos de datos ordenados, etc. Esto se refiere a distribuciones discretas, pero el concepto puede generalizarse para distribuciones continuas.

R2R2

Macond
fuente
3
R2R2