Generé un diagrama qq usando el siguiente código. Sé que qq plot se usa para verificar si los datos se distribuyen normalmente o no. Mi pregunta es ¿qué indican las etiquetas de los ejes xey en el gráfico qq y qué indica ese valor cuadrado r?
N = 1200
p = 0.53
q = 1000
obs = np.random.binomial(N, p, size = q)/N
import scipy.stats as stats
z = (obs-np.mean(obs))/np.std(obs)
stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()
Sé que ya hay una discusión sobre qq plot , pero no pude entender el concepto a pesar de pasar por esa discusión.
probability
normal-distribution
mathematical-statistics
descriptive-statistics
qq-plot
Elizabeth Susan Joseph
fuente
fuente
help(probplot)
estados:probplot
genera una gráfica de probabilidad, que no debe confundirse con una gráfica QQ o PP.Respuestas:
La respuesta de Macond es precisa, sin embargo, desde la publicación original, pensé que podría ser útil simplificar un poco la palabrería.
Un gráfico QQ significa un "gráfico cuantil-cuantil" .
Es un diagrama donde los ejes se transforman a propósito para hacer que una distribución normal (o gaussiana) aparezca en línea recta . En otras palabras, una distribución perfectamente normal seguiría exactamente una línea con pendiente = 1 e intercepción = 0.
Por lo tanto, si la gráfica no parece ser, aproximadamente, una línea recta, la distribución subyacente no es normal. Si se dobla, entonces hay más valores de "alto volante" de lo esperado, por ejemplo. (El enlace proporciona más ejemplos).
Los cuantiles teóricos se colocan a lo largo del eje x. Es decir, el eje x no son sus datos , es simplemente una expectativa de dónde deberían haber estado sus datos, si fueran normales.
Los datos reales se trazan a lo largo del eje y.
Los valores son las desviaciones estándar de la media. Entonces,
0
es la media de los datos,1
es 1 desviación estándar anterior, etc. Esto significa, por ejemplo, que68.27%
todos sus datos deben estar entre -1 y 1, si tiene una distribución normal.Por último, hay un diagrama similar que rara vez se usa llamado diagrama de pp . Este gráfico es más útil si está interesado en centrarse en dónde se encuentra la mayor parte de los datos, en lugar de los extremos.
fuente
El eje Y muestra valores de distribución observada y el eje X, valores de distribución teórica.
Cada punto es un cuantil. Digamos que si hubiera 100 puntos en la gráfica, el primer punto (el que está en el lado inferior izquierdo) indica un límite superior para un intervalo, y cuando se ordena de menor a mayor, el 1 por ciento más pequeño de los puntos de datos de La distribución correspondiente permanece en este intervalo. Del mismo modo, el segundo punto es el límite superior de un intervalo, donde se encuentra el 2 por ciento más pequeño de los puntos de datos de la distribución. Este es el concepto de cuantil. Pero no se limita a un caso con 100 intervalos, es un concepto general y puede tener tantos intervalos como sea posible, entonces tendrá tantos cuantiles que describen los límites de los intervalos.
Utilicé puntos de datos a lo largo de mi respuesta, como puntos de datos ordenados, etc. Esto se refiere a distribuciones discretas, pero el concepto puede generalizarse para distribuciones continuas.
fuente