Estoy tratando de determinar si mi conjunto de datos de datos continuos sigue una distribución gamma con parámetros shape 1.7 y rate 0.000063.
El problema es que cuando uso R para crear una gráfica QQ de mi conjunto de datos contra la distribución teórica gamma (1.7, 0.000063), obtengo una gráfica que muestra que los datos empíricos coinciden aproximadamente con la distribución gamma. Lo mismo sucede con el gráfico ECDF.
Sin embargo, cuando realizo una prueba de Kolmogorov-Smirnov, me da un valor irracionalmente pequeño de .< 1 %
¿Cuál debería elegir creer? ¿La salida gráfica o el resultado de la prueba KS?
pdf
kolmogorov-smirnov
cdf
qq-plot
usuario22119
fuente
fuente
Respuestas:
No veo ningún sentido en no "creer" la trama QQ (si la ha producido correctamente); es solo una representación gráfica de la realidad de sus datos, yuxtapuesta con la distribución de definición. Claramente, no es una combinación perfecta, pero si es lo suficientemente bueno para sus propósitos, puede ser más o menos el final de la historia. Es posible que desee consultar esta pregunta relacionada: ¿Las pruebas de normalidad son 'esencialmente inútiles'?
Si sus datos son demasiado diferentes de una distribución gamma para los fines previstos es otra cuestión. La prueba KS por sí sola no puede responder por usted (porque su resultado dependerá del tamaño de su muestra, entre otras razones), pero el gráfico QQ podría ayudarlo a decidir. También es posible que desee buscar alternativas sólidas a cualquier otro análisis que planee ejecutar, y si se toma muy en serio la importancia de cualquier análisis posterior a las desviaciones de la distribución gamma, es posible que también desee considerar realizar algunas pruebas de simulación .
fuente
Lo que podría hacer es crear varias muestras a partir de su distribución teórica y trazarlas en el fondo de su trama QQ. Eso le dará una idea de qué tipo de variabilidad puede esperar razonablemente con solo el muestreo.
Puede ampliar esa idea para crear un sobre alrededor de la línea teórica, utilizando el ejemplo de las páginas 86-89 de:
Venables, WN y Ripley, BD 2002. Estadísticas aplicadas modernas con S. New York: Springer.
Este será un sobre puntual. Puede ampliar esa idea aún más para crear un sobre general utilizando las ideas de las páginas 151-154 de:
Davison, AC y Hinkley, DV 1997. Métodos Bootstrap y su aplicación. Cambridge: Cambridge University Press.
Sin embargo, para la exploración básica, creo que solo trazar un par de muestras de referencia en el fondo de su parcela QQ será más que suficiente.
fuente
La prueba KS asume parámetros particulares de su distribución. Prueba la hipótesis "los datos se distribuyen de acuerdo con esta distribución particular". Es posible que haya especificado estos parámetros en alguna parte. De lo contrario, es posible que se hayan utilizado algunos valores predeterminados que no coinciden. Tenga en cuenta que la prueba de KS se volverá conservadora si los parámetros estimados se conectan a la hipótesis.
Sin embargo, la mayoría de las pruebas de bondad de ajuste se usan al revés. Si la prueba KS no hubiera mostrado importancia, esto no significa que el modelo que desea probar sea apropiado. Eso es lo que dijo @Nick Stauner sobre un tamaño de muestra demasiado pequeño. Este problema es similar a las pruebas de hipótesis puntuales y las pruebas de equivalencia.
Así que al final: solo considera las parcelas QQ.
fuente
QQ Plot es una técnica exploratoria de análisis de datos y debe tratarse como tal, al igual que todos los otros gráficos EDA. Solo están destinados a brindarle información preliminar sobre los datos disponibles. Nunca debe decidir o detener su análisis basado en gráficos EDA como QQ plot. Es un consejo incorrecto considerar solo los gráficos QQ. Definitivamente deberías seguir técnicas cuantitativas como la prueba KS. Supongamos que tiene otro gráfico QQ para un conjunto de datos similar, ¿cómo compararía los dos sin una herramienta cuantitativa? El siguiente paso correcto para usted, después de la prueba EDA y KS es descubrir por qué la prueba KS está dando un valor p bajo (en su caso, incluso podría deberse a algún error).
Las técnicas EDA NO están destinadas a servir como herramientas para la toma de decisiones. De hecho, diría que incluso las estadísticas inferenciales están destinadas a ser solo exploratorias. Le dan consejos sobre en qué dirección debe proceder su análisis estadístico. Por ejemplo, una prueba t en una muestra solo le daría un nivel de confianza de que la muestra puede (o no) pertenecer a la población, aún puede continuar basándose en esa información sobre a qué distribución pertenecen sus datos y a qué son sus parámetros, etc. De hecho, cuando algunos afirman que incluso las técnicas implementadas como parte de las bibliotecas de aprendizaje automático también son de naturaleza exploratoria. ¡Espero que lo digan en este sentido ...!
Para concluir las decisiones estadísticas sobre la base de tramas o técnicas de visualización se está burlando de los avances realizados en la ciencia estadística. Si me pregunta, debe usar estos gráficos como herramientas para comunicar las conclusiones finales basadas en su análisis estadístico cuantitativo.
fuente