He leído que la prueba t es "razonablemente robusta" cuando las distribuciones de las muestras se apartan de la normalidad. Por supuesto, lo importante es la distribución muestral de las diferencias. Tengo datos para dos grupos. Uno de los grupos está muy sesgado en la variable dependiente. El tamaño de la muestra es bastante pequeño para ambos grupos (n = 33 en uno y 45 en el otro). ¿Debo suponer que, en estas condiciones, mi prueba t será robusta a las violaciones del supuesto de normalidad?
t-test
assumptions
normality-assumption
robust
Arqueoptérix
fuente
fuente
Respuestas:
Las preguntas sobre robustez son muy difíciles de responder bien, porque los supuestos pueden violarse de muchas maneras y en cada sentido en diferentes grados. El trabajo de simulación solo puede probar una porción muy pequeña de las posibles violaciones.
Dado el estado de la informática, creo que a menudo vale la pena ejecutar una prueba tanto paramétrica como no paramétrica, si ambas están disponibles. Luego puede comparar los resultados.
Si eres realmente ambicioso, incluso podrías hacer una prueba de permutación.
¿Qué pasaría si Alan Turing hubiera hecho su trabajo antes de que Ronald Fisher hiciera el suyo? :-).
fuente
@PeterFlom dio en el clavo con su primera oración.
Trataré de dar un resumen aproximado de los estudios que he visto (si quieres enlaces, podría pasar un tiempo):
En general, la prueba t de dos muestras es razonablemente robusta a la no normalidad simétrica (la verdadera curtosis afecta un tanto a la verdadera tasa de error tipo I, la potencia se ve afectada principalmente por eso).
Cuando las dos muestras están ligeramente sesgadas en la misma dirección, la prueba t de una cola ya no es imparcial. La estadística t está sesgada en sentido opuesto a la distribución, y tiene mucho más poder si la prueba se realiza en una dirección que en la otra. Si están sesgados en direcciones opuestas, la tasa de error tipo I puede verse muy afectada.
La asimetría intensa puede tener un impacto mayor, pero en general, la asimetría moderada con una prueba de dos colas no es tan mala si no te importa que tu prueba en esencia asigne más de su poder a una dirección que a la otra.
En resumen: la prueba t de dos colas y dos muestras es razonablemente sólida para ese tipo de cosas si puede tolerar algún impacto en el nivel de significación y un sesgo leve.
Sin embargo, hay muchas, muchas formas en que las distribuciones no son normales, que no están cubiertas por esos comentarios.
fuente
@PeterFlom ya ha mencionado que los estudios de simulación nunca pueden cubrir todos los escenarios y posibilidades y, por lo tanto, no pueden dar una respuesta definitiva. Sin embargo, todavía me resulta útil explorar un problema como este mediante la realización de algunas simulaciones (este también es exactamente el tipo de ejercicio que me gusta usar al presentar la idea de los estudios de simulación de Monte Carlo a los estudiantes). Entonces, en realidad probémoslo. Usaré R para esto.
El código
Explicación
Primero establecemos el tamaño del grupo (
n1
yn2
), el grupo verdadero significa (mu1
ymu2
) y las desviaciones estándar verdaderas (sd1
ysd2
).Luego definimos el número de iteraciones a ejecutar y configuramos vectores para almacenar los valores p.
Luego simulo datos bajo 5 escenarios:
Tenga en cuenta que estoy usando distribuciones de chi-cuadrado para generar las distribuciones sesgadas. Con un grado de libertad, esas son distribuciones muy sesgadas. Dado que la media y la varianza verdaderas de una distribución de chi-cuadrado con un grado de libertad es igual a 1 y 2, respectivamente ( ver wikipedia ), reescala esas distribuciones para tener primero la media 0 y la desviación estándar 1 y luego las vuelvo a escalar para tener el media verdadera deseada y desviación estándar (esto podría hacerse en un solo paso, pero hacerlo de esta manera puede ser más claro).
En cada caso, aplico la prueba t (versión de Welch; por supuesto, también se puede considerar la versión de Student que asume variaciones iguales en los dos grupos) y guardo el valor p en los vectores configurados anteriormente.
Finalmente, una vez que se completan todas las iteraciones, calculo para cada vector con qué frecuencia el valor p es igual o inferior a 0,05 (es decir, la prueba es "significativa"). Esta es la tasa de rechazo empírico.
Algunos resultados
Simulando exactamente como se describe arriba produce:
Si cambiamos el código a
mu1 <- .5
, obtenemos:Entonces, en comparación con el caso en que ambas distribuciones son normales (como se supone por la prueba), ¡la potencia en realidad parece ser ligeramente mayor cuando la asimetría está en la misma dirección! Si está sorprendido por esto, es posible que desee volver a ejecutar esto varias veces (por supuesto, cada vez obteniendo resultados ligeramente diferentes), pero el patrón permanecerá.
Tenga en cuenta que debemos tener cuidado al interpretar los valores de potencia empírica en los dos escenarios donde la asimetría está en direcciones opuestas, ya que la tasa de error Tipo I no es del todo nominal (como un caso extremo, suponga que siempre rechazo independientemente de los datos). mostrar; entonces siempre tendré una prueba con potencia máxima, pero, por supuesto, la prueba también tiene una tasa de error Tipo I bastante inflada).
Uno podría comenzar a explorar un rango de valores para
mu1
(ymu2
- pero lo que realmente importa es la diferencia entre los dos) y, lo que es más importante, comenzar a cambiar las verdaderas desviaciones estándar de los dos grupos (es decir,sd1
ysd2
) y especialmente hacerlos desiguales. También me quedé con los tamaños de muestra mencionados por el OP, pero por supuesto eso también podría ajustarse. Y la asimetría podría, por supuesto, tomar muchas otras formas que las que vemos en una distribución de chi-cuadrado con un grado de libertad. Todavía pienso que abordar las cosas de esta manera es útil, a pesar de que no puede dar una respuesta definitiva.fuente
En su situación, la prueba t probablemente será sólida en términos de tasa de error de Tipo I, pero no de tasa de error de Tipo II. Probablemente lograrías más potencia a través de a) una prueba de Kruskal-Wallis, o b) una transformación de normalización antes de una prueba t.
Estoy basando esta conclusión en dos estudios de Monte Carlo. En el primero ( Khan y Rayner, 2003 ), la oblicuidad y la curtosis se manipularon indirectamente a través de los parámetros de la familia de distribución gyk, y se examinó la potencia resultante. Es importante destacar que el poder de la prueba de Kruskal-Wallis fue menos dañado por la no normalidad, particularmente para n> = 15.
Algunas advertencias / calificaciones sobre este estudio: el poder a menudo se vio afectado por la curtosis alta, pero se vio menos afectado por el sesgo. A primera vista, este patrón puede parecer menos relevante para su situación dado que notó un problema con sesgo, no con curtosis. Sin embargo, apuesto a que el exceso de curtosis también es extremo en su caso. Tenga en cuenta que el exceso de curtosis será al menos tan alto como sesgado ^ 2 - 2. (Deje que el exceso de curtosis sea igual al cuarto momento estandarizado menos 3, de modo que el exceso de curtosis = 0 para una distribución normal). Observe también que Khan y Rayner ( 2003) examinaron los ANOVA con 3 grupos, pero es probable que sus resultados se generalicen a una prueba t de dos muestras.
Un segundo estudio relevante ( Beasley, Erikson y Allison, 2009) examinaron los errores de Tipo I y Tipo II con varias distribuciones no normales, como Chi-cuadrado (1) y Weibull (1, .5). Para tamaños de muestra de al menos 25, la prueba t controlaba adecuadamente la tasa de error Tipo I en o por debajo del nivel alfa nominal. Sin embargo, la potencia fue más alta con una prueba de Kruskal-Wallis o con una transformación normal inversa basada en rango (puntajes de Blom) aplicada antes de la prueba t. Beasley y sus colegas en general argumentaron en contra del enfoque de normalización, pero debe tenerse en cuenta que el enfoque de normalización controlaba la tasa de error Tipo I para n> = 25, y su poder a veces excedía ligeramente el de la prueba de Kruskal-Wallis. Es decir, el enfoque de normalización parece prometedor para su situación. Vea las tablas 1 y 4 en su artículo para más detalles.
Referencias
Khan, A. y Rayner, GD (2003) . Robustez a la no normalidad de las pruebas comunes para el problema de ubicación de muchas muestras. Revista de Matemáticas Aplicadas y Ciencias de la Decisión, 7 , 187-206.
Beasley, TM, Erickson, S. y Allison, DB (2009) . Las transformaciones normales inversas basadas en el rango se utilizan cada vez más, pero ¿se merecen? Behavioral Genetics, 39 , 580-595.
fuente
En primer lugar, si asume que la distribución de las dos muestras es diferente, asegúrese de estar utilizando la versión de Welch de la prueba t que asume variaciones desiguales entre los grupos. Esto al menos intentará explicar algunas de las diferencias que ocurren debido a la distribución.
Si miramos la fórmula para la prueba t de Welch:
podemos ver que cada vez que hay un s sabemos que la variación se está teniendo en cuenta. Imaginemos que las dos variaciones son de hecho iguales, pero una está sesgada, lo que lleva a una estimación de la variación diferente. Si esta estimación de la varianza no es realmente representativa de sus datos debido a la distorsión, entonces el efecto de sesgo real será esencialmente la raíz cuadrada de ese sesgo dividido por el número de puntos de datos utilizados para calcularlo. Por lo tanto, el efecto de los malos estimadores de varianza se amortigua un poco por la raíz cuadrada y una n más alta, y esa es probablemente la razón por la cual el consenso es que sigue siendo una prueba sólida.
El otro problema de las distribuciones sesgadas es que el cálculo medio también se verá afectado, y aquí es probablemente donde se encuentran los problemas reales de las infracciones de la suposición de prueba, ya que los medios son relativamente sensibles a la inclinación. Y la robustez de la prueba se puede determinar aproximadamente calculando la diferencia en las medias, en comparación con la diferencia en las medianas (como una idea). Tal vez incluso podría intentar reemplazar la diferencia de medias por la diferencia en las medianas en la prueba t como una medida más sólida (estoy seguro de que alguien ha discutido esto, pero no pude encontrar algo en Google lo suficientemente rápido como para vincularlo).
También sugeriría ejecutar una prueba de permutación si todo lo que está haciendo es una prueba t. La prueba de permutación es una prueba exacta, independiente de los supuestos de distribución. Lo más importante, las pruebas de permutación y la prueba t conducirán a resultados idénticos si se cumplen los supuestos de la prueba paramétrica . Por lo tanto, la medida de robustez que busca puede ser 1: la diferencia entre los valores p de permutación y prueba t, donde una puntuación de 1 implica robustez perfecta y 0 implica no robusto en absoluto.
fuente