Contexto:
En una pregunta anterior, @Robbie preguntó en un estudio con alrededor de 600 casos por qué las pruebas de normalidad sugirieron una no normalidad significativa, pero las parcelas sugirieron distribuciones normales . Varias personas señalaron que las pruebas de significación de la normalidad no son muy útiles. Con muestras pequeñas, tales pruebas no tienen mucho poder para detectar violaciones leves de la normalidad y con muestras grandes, detectarán violaciones de la normalidad que son lo suficientemente pequeñas como para no ser motivo de preocupación.
Me parece que este problema es similar al debate sobre las pruebas de significación y los tamaños de los efectos. Si solo se enfoca en pruebas de significancia, cuando tiene muestras grandes, puede detectar pequeños efectos que son irrelevantes para fines prácticos, y con muestras pequeñas no tiene suficiente potencia.
En algunos casos, incluso he visto libros de texto que aconsejan a las personas que puede tener una muestra "demasiado grande", porque los efectos pequeños serán estadísticamente significativos.
En el contexto de las pruebas de significación y los tamaños del efecto, una resolución simple es centrarse en estimar el tamaño del efecto de interés, en lugar de obsesionarse con la regla de decisión binaria de si existe o no un efecto. Los intervalos de confianza en los tamaños de los efectos son uno de esos enfoques, o podría adoptar alguna forma de enfoque bayesiano. Además, varios dominios de investigación crean ideas sobre lo que significa un tamaño de efecto dado en un sentido práctico, para bien o para mal, aplicando etiquetas heurísticas como "pequeño", "medio" y "gran efecto". Esto también lleva a la recomendación inteligente de maximizar el tamaño de la muestra para maximizar la precisión en la estimación de un parámetro de interés dado.
Esto me hace preguntarme por qué un enfoque similar basado en los intervalos de confianza de los tamaños del efecto no se adopta más ampliamente en relación con las pruebas de suposición, y las pruebas de normalidad en particular.
Pregunta:
- ¿Cuál es el mejor índice único del grado en que los datos violan la normalidad?
- ¿O es mejor hablar sobre múltiples índices de violación de la normalidad (por ejemplo, asimetría, curtosis, prevalencia atípica)?
- ¿Cómo se pueden calcular los intervalos de confianza (o quizás un enfoque bayesiano) para el índice?
- ¿Qué tipo de etiquetas verbales podría asignar a los puntos en ese índice para indicar el grado de violación de la normalidad (por ejemplo, leve, moderada, fuerte, extrema, etc.)? El objetivo de tales etiquetas podría ser ayudar a los analistas con menos experiencia en el entrenamiento de su intuición sobre cuándo las violaciones de la normalidad son problemáticas.
Respuestas:
A) ¿Cuál es el mejor índice único del grado en que los datos violan la normalidad?
B) ¿O es mejor hablar sobre múltiples índices de violación de la normalidad (por ejemplo, asimetría, curtosis, prevalencia atípica)?
Yo votaría por B. Diferentes violaciones tienen diferentes consecuencias. Por ejemplo, las distribuciones simétricas y unimodales con colas pesadas hacen que sus CI sean muy amplios y presumiblemente reducen la potencia para detectar cualquier efecto. La media, sin embargo, todavía alcanza el valor "típico". Para distribuciones muy sesgadas, la media, por ejemplo, podría no ser un índice muy sensible del "valor típico".
C) ¿Cómo se pueden calcular los intervalos de confianza (o quizás un enfoque bayesiano) para el índice?
No sé acerca de las estadísticas bayesianas, pero con respecto a la prueba clásica de normalidad, me gustaría citar a Erceg-Hurn et al. (2008) [2]:
D) ¿Qué tipo de etiquetas verbales podría asignar a los puntos en ese índice para indicar el grado de violación de la normalidad (p. Ej., Leve, moderada, fuerte, extrema, etc.)?
Micceri (1989) [1] realizó un análisis de 440 conjuntos de datos a gran escala en psicología. Evaluó la simetría y el peso de la cola y definió criterios y etiquetas. Las etiquetas para la asimetría varían de 'relativamente simétrica' a 'moderada -> extrema -> asimetría exponencial'. Las etiquetas para el peso de la cola van desde 'Uniforme -> menos que gaussiano -> Acerca de gaussiano -> Moderado -> Extremo -> Contaminación exponencial doble'. Cada clasificación se basa en criterios múltiples y sólidos.
Encontró que de estos 440 conjuntos de datos, solo el 28% eran relativamente simétricos, y solo el 15% se referían a Gauss con respecto a los pesos de la cola. Por lo tanto, el buen título del artículo:
Escribí una
R
función que evalúa automáticamente los criterios de Micceri y también imprime las etiquetas:[1] Micceri, T. (1989). El unicornio, la curva normal y otras criaturas improbables. Boletín psicológico, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156
[2] Erceg-Hurn, DM y Mirosevich, VM (2008). Métodos estadísticos sólidos y modernos: una manera fácil de maximizar la precisión y el poder de su investigación. Psicólogo estadounidense, 63 , 591-601.
fuente