Tengo un problema con la normalidad de algunos datos que tengo: hice una prueba de Kolmogorov que dice que no es normal con p = .0000, no entiendo: el sesgo de mi distribución = -. 497, y la curtosis = -0,024
Aquí está la trama de mi distribución que se ve muy normal ...
(Tengo tres puntajes, y cada uno de estos puntajes no es normal con un valor p significativo para la prueba de Kolmogorov ... Realmente no entiendo)
Respuestas:
No tiene ninguna base para afirmar que sus datos son normales. Incluso si su asimetría y exceso de curtosis fueron exactamente 0, eso no implica que sus datos sean normales. Si bien la asimetría y la curtosis lejos de los valores esperados indican falta de normalidad, lo contrario no se cumple. Hay distribuciones no normales que tienen la misma asimetría y curtosis que la normal. Aquí se analiza un ejemplo , cuya densidad se reproduce a continuación:
Como puede ver, es claramente bimodal. En este caso, la distribución es simétrica, por lo tanto, mientras existan suficientes momentos, la medida de asimetría típica será 0 (de hecho, todas las medidas habituales serán). Para la curtosis, la contribución a los 4º momentos de la región cercana a la media tenderá a reducir la curtosis, pero la cola es relativamente pesada, lo que tiende a agrandarla. Si elige la correcta, la curtosis sale con el mismo valor que para la normal.
La asimetría de la muestra es en realidad de alrededor de -0.5, lo que sugiere una asimetría izquierda leve. Su histograma y el gráfico QQ indican lo mismo: una distribución ligeramente sesgada a la izquierda. (Es poco probable que este sesgo leve sea un problema para la mayoría de los procedimientos comunes de teoría normal).
Estás viendo varios indicadores diferentes de no normalidad que no debes esperar acordar a priori , ya que consideran diferentes aspectos de la distribución; con muestras pequeñas, ligeramente no normales, con frecuencia no estarán de acuerdo.
Ahora para la gran pregunta: * ¿Por qué estás probando la normalidad? *
[editado en respuesta a los comentarios:]
Hay una serie de puntos que se deben hacer aquí.
yo. La normalidad es una suposición de ANOVA si la está usando para inferencia (como pruebas de hipótesis), pero no es especialmente sensible a la no normalidad en muestras más grandes; la no normalidad leve es de poca consecuencia y, a medida que el tamaño de la muestra aumenta, la distribución puede se vuelve más no normal y la prueba puede verse un poco afectada.
ii. Parece que está probando la normalidad de la respuesta (DV). No se supone que la distribución (incondicional) de DV en sí misma sea normal en ANOVA. Verifica los residuos para evaluar la razonabilidad de la suposición sobre la distribución condicional (es decir, es el término de error en el modelo que se supone normal), es decir, no parece estar mirando lo correcto. De hecho, debido a que la verificación se realiza en los residuos, lo hace después del ajuste del modelo, en lugar de antes.
iii) Las pruebas formales pueden ser casi inútiles. La pregunta de interés aquí es "¿cuán grave es el grado de no normalidad que afecta mi inferencia?", A lo que la prueba de hipótesis realmente no responde. A medida que el tamaño de la muestra aumenta, la prueba se vuelve cada vez más capaz de detectar diferencias triviales de la normalidad, mientras que el efecto sobre el nivel de significancia en el ANOVA se vuelve cada vez más pequeño. Es decir, si el tamaño de su muestra es razonablemente grande, la prueba de normalidad le dice principalmente que tiene un tamaño de muestra grande, lo que significa que es posible que no tenga mucho de qué preocuparse. Al menos con un gráfico QQ, tiene una evaluación visual de lo no normal que es.
iv. a tamaños de muestra razonables, otros supuestos, como la igualdad de varianza y la independencia, generalmente importan mucho más que la no normalidad leve. Preocúpese por los otros supuestos primero ... pero nuevamente, las pruebas formales no responden la pregunta correcta
v. elegir si realiza un ANOVA o alguna otra prueba basada en el resultado de una prueba de hipótesis tiende a tener peores propiedades que simplemente decidir actuar como si la suposición no fuera válida. (Hay una variedad de métodos que son adecuados para análisis unidireccionales tipo ANOVA en datos que no se supone que son normales que puede usar siempre que no crea que tiene motivos para asumir la normalidad. Algunos tienen muy buen poder normalmente, y con un software decente no hay razón para evitarlos).
[Creo que tenía una referencia para este último punto, pero no puedo localizarlo en este momento; si lo encuentro, intentaré volver y ponerlo]
fuente
La prueba de Kolmogorov-Smirnov tiene bastante poder cuando los tamaños de las muestras son grandes, por lo que puede ser fácil rechazar la hipótesis nula de que sus datos no difieren de la normalidad. En otras palabras, la prueba a veces sugerirá que una distribución no es normal en muestras grandes, incluso si es normal para la mayoría de las intenciones.
Piense en ello como una prueba t. Si tiene dos poblaciones que difieren en altura solo una milésima de milímetro, una muestra increíblemente grande respaldará estadísticamente que son diferentes, incluso si la diferencia no tiene sentido.
Quizás pueda confiar en otros métodos para determinar la normalidad de sus datos. Los gráficos que usa son dos buenos ejemplos, así como los valores de sesgo / curtosis.
Este otro tema parece particularmente relacionado: ¿Las pruebas de normalidad son 'esencialmente inútiles'?
fuente
La prueba de Kolmogorov-Smirnov no tiene distribución cuando la hipótesis nula está completamente especificada; si la media y la varianza se estiman a partir de los datos, asegúrese de usar la variante de Lilliefors cuando pruebe la normalidad (si es necesario). Eso no es contrario a las otras respuestas.
fuente