¿Qué tan robusta es la prueba t de muestras independientes cuando las distribuciones de las muestras no son normales?

24

He leído que la prueba t es "razonablemente robusta" cuando las distribuciones de las muestras se apartan de la normalidad. Por supuesto, lo importante es la distribución muestral de las diferencias. Tengo datos para dos grupos. Uno de los grupos está muy sesgado en la variable dependiente. El tamaño de la muestra es bastante pequeño para ambos grupos (n = 33 en uno y 45 en el otro). ¿Debo suponer que, en estas condiciones, mi prueba t será robusta a las violaciones del supuesto de normalidad?

Arqueoptérix
fuente
3
"Por supuesto, lo importante es la distribución muestral de las diferencias". ¿Diferencias en qué? Tuve la tentación de editar esto fuera de la cuestión, ya que temo que sea engañoso para los futuros lectores (y tangencial al punto principal). Lo primero que pensé fue que es una referencia errónea a una prueba t emparejada , donde asumimos que las diferencias entre pares son normales, pero eso no se aplica en una prueba de muestras independientes. ¡Ni siquiera tenemos pares para diferenciar! ¿Quizás se pretende "diferencia en los medios"? El resto de la Q considera la normalidad de las dos muestras, no las diferencias.
Silverfish
La cuestión de qué tan robusta es la prueba t para tales violaciones es importante y legítima. Pero un problema relacionado es que primero no se verifica si hay infracciones en sus datos, y solo luego se decide si se aplica una prueba t o alguna prueba alternativa. Tal procedimiento de pasos múltiples tiene características operativas inciertas. Vea este hilo: Un método basado en principios para elegir entre la prueba t o no paramétrica, por ejemplo, Wilcoxon en muestras pequeñas
Silverfish
¿Qué es una fuente creíble? (Supongo que ambos estaríamos de acuerdo en que no existe una fuente oficial). ¿Estamos viendo robustez de nivel o también potencia? Y si 'también poder' ... ¿de qué tipo de alternativa estamos hablando ?
Glen_b: reinstala a Mónica el
@Glen_b Lo sentimos, ¡el mensaje de recompensa de las "fuentes oficiales" es claramente más para StackOverflow! Simplemente siento que este hilo es prácticamente importante (además de bastante tráfico y pobre en Wikipedia) para merecer algunas citas. La plantilla de recompensas de "respuesta canónica" sería inapropiada, ya que la respuesta de Peter Flom se muestra claramente. Tengo la sensación de que hay un "conjunto de conocimientos comunes" sobre este tema: si me hubieran preguntado esta Q de antemano, mi lista se parecería mucho a la de Dallal (habría agregado curtosis, pero no me hubiera aventurado a ese tamaño de muestra igual protege contra la no normalidad general)
Silverfish
@Glen_b Su respuesta extrae una vena similar, por lo que parece que hay algunos puntos básicos ampliamente conocidos / aceptados. Mi título cubrió suposiciones pero no las consecuencias de la violación: mi conocimiento proviene de diversas fuentes, fragmentos dispersos (los libros tipo "estadísticas para psicólogos" pueden prestar más atención a las consecuencias que muchos textos de teoría de estadísticas); de lo contrario, habría publicado una respuesta no una recompensa! Si alguien conoce un resumen decente de una página en un buen libro de texto, eso estaría bien. Si se trata de un par de documentos con resultados de simulación, también está bien. Cualquier cosa que los futuros lectores puedan consultar y citar.
Silverfish

Respuestas:

16

Las preguntas sobre robustez son muy difíciles de responder bien, porque los supuestos pueden violarse de muchas maneras y en cada sentido en diferentes grados. El trabajo de simulación solo puede probar una porción muy pequeña de las posibles violaciones.

Dado el estado de la informática, creo que a menudo vale la pena ejecutar una prueba tanto paramétrica como no paramétrica, si ambas están disponibles. Luego puede comparar los resultados.

Si eres realmente ambicioso, incluso podrías hacer una prueba de permutación.

¿Qué pasaría si Alan Turing hubiera hecho su trabajo antes de que Ronald Fisher hiciera el suyo? :-).

Peter Flom - Restablece a Monica
fuente
1
¡Peter, me has inspirado para escribir ficción histórica para responder precisamente esa pregunta!
Sycorax dice Reinstate Monica el
12

@PeterFlom dio en el clavo con su primera oración.

Trataré de dar un resumen aproximado de los estudios que he visto (si quieres enlaces, podría pasar un tiempo):

En general, la prueba t de dos muestras es razonablemente robusta a la no normalidad simétrica (la verdadera curtosis afecta un tanto a la verdadera tasa de error tipo I, la potencia se ve afectada principalmente por eso).

Cuando las dos muestras están ligeramente sesgadas en la misma dirección, la prueba t de una cola ya no es imparcial. La estadística t está sesgada en sentido opuesto a la distribución, y tiene mucho más poder si la prueba se realiza en una dirección que en la otra. Si están sesgados en direcciones opuestas, la tasa de error tipo I puede verse muy afectada.

La asimetría intensa puede tener un impacto mayor, pero en general, la asimetría moderada con una prueba de dos colas no es tan mala si no te importa que tu prueba en esencia asigne más de su poder a una dirección que a la otra.

En resumen: la prueba t de dos colas y dos muestras es razonablemente sólida para ese tipo de cosas si puede tolerar algún impacto en el nivel de significación y un sesgo leve.

Sin embargo, hay muchas, muchas formas en que las distribuciones no son normales, que no están cubiertas por esos comentarios.

Glen_b -Reinstate a Monica
fuente
¡No estoy seguro de que sea correcto decir que es razonablemente robusto! Es razonablemente robusto, el nivel de significancia será más o menos correcto, pero, por ejemplo, las pruebas de wilcoxon pueden tener un poder mucho mayor para que las alternativas razonablemente cercanas a la normalidad sean difíciles de detectar. Esto también depende de factores como si hay un número igual de observaciones en cada grupo: ¡la robustez es mucho más frágil en el caso de desigual n!
kjetil b halvorsen
1
@kjetilbhalvorsen Los estudios que he visto, incluida alguna simulación que he realizado yo mismo (y no he visto ninguno por un buen tiempo; es posible que hayas visto algo que no he visto), la mayoría del efecto en el poder parecía estar empujando principalmente el nivel hacia arriba y hacia abajo (lo que no afectó al Wilcoxon). Dadas las propiedades de potencia generalmente buenas del Wilcoxon en estas circunstancias (particularmente con colas pesadas), eso es suficiente para que el Wilcoxon gane en potencia: si ajusta los niveles para que sean similares, me sorprende lo bien que a menudo hizo.
Glen_b -Reinstate Monica
7

@PeterFlom ya ha mencionado que los estudios de simulación nunca pueden cubrir todos los escenarios y posibilidades y, por lo tanto, no pueden dar una respuesta definitiva. Sin embargo, todavía me resulta útil explorar un problema como este mediante la realización de algunas simulaciones (este también es exactamente el tipo de ejercicio que me gusta usar al presentar la idea de los estudios de simulación de Monte Carlo a los estudiantes). Entonces, en realidad probémoslo. Usaré R para esto.

El código

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

Explicación

  1. Primero establecemos el tamaño del grupo ( n1y n2), el grupo verdadero significa ( mu1y mu2) y las desviaciones estándar verdaderas ( sd1y sd2).

  2. Luego definimos el número de iteraciones a ejecutar y configuramos vectores para almacenar los valores p.

  3. Luego simulo datos bajo 5 escenarios:

    1. Ambas distribuciones son normales.
    2. Ambas distribuciones están sesgadas a la derecha.
    3. Ambas distribuciones están sesgadas a la izquierda.
    4. La primera distribución está sesgada a la izquierda, la segunda a la derecha.
    5. La primera distribución está sesgada a la derecha, la segunda a la izquierda.

    Tenga en cuenta que estoy usando distribuciones de chi-cuadrado para generar las distribuciones sesgadas. Con un grado de libertad, esas son distribuciones muy sesgadas. Dado que la media y la varianza verdaderas de una distribución de chi-cuadrado con un grado de libertad es igual a 1 y 2, respectivamente ( ver wikipedia ), reescala esas distribuciones para tener primero la media 0 y la desviación estándar 1 y luego las vuelvo a escalar para tener el media verdadera deseada y desviación estándar (esto podría hacerse en un solo paso, pero hacerlo de esta manera puede ser más claro).

  4. En cada caso, aplico la prueba t (versión de Welch; por supuesto, también se puede considerar la versión de Student que asume variaciones iguales en los dos grupos) y guardo el valor p en los vectores configurados anteriormente.

  5. Finalmente, una vez que se completan todas las iteraciones, calculo para cada vector con qué frecuencia el valor p es igual o inferior a 0,05 (es decir, la prueba es "significativa"). Esta es la tasa de rechazo empírico.

Algunos resultados

  1. Simulando exactamente como se describe arriba produce:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    α=.05

  2. Si cambiamos el código a mu1 <- .5, obtenemos:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    Entonces, en comparación con el caso en que ambas distribuciones son normales (como se supone por la prueba), ¡la potencia en realidad parece ser ligeramente mayor cuando la asimetría está en la misma dirección! Si está sorprendido por esto, es posible que desee volver a ejecutar esto varias veces (por supuesto, cada vez obteniendo resultados ligeramente diferentes), pero el patrón permanecerá.

    Tenga en cuenta que debemos tener cuidado al interpretar los valores de potencia empírica en los dos escenarios donde la asimetría está en direcciones opuestas, ya que la tasa de error Tipo I no es del todo nominal (como un caso extremo, suponga que siempre rechazo independientemente de los datos). mostrar; entonces siempre tendré una prueba con potencia máxima, pero, por supuesto, la prueba también tiene una tasa de error Tipo I bastante inflada).

Uno podría comenzar a explorar un rango de valores para mu1(y mu2- pero lo que realmente importa es la diferencia entre los dos) y, lo que es más importante, comenzar a cambiar las verdaderas desviaciones estándar de los dos grupos (es decir, sd1y sd2) y especialmente hacerlos desiguales. También me quedé con los tamaños de muestra mencionados por el OP, pero por supuesto eso también podría ajustarse. Y la asimetría podría, por supuesto, tomar muchas otras formas que las que vemos en una distribución de chi-cuadrado con un grado de libertad. Todavía pienso que abordar las cosas de esta manera es útil, a pesar de que no puede dar una respuesta definitiva.

Wolfgang
fuente
2
Dado que tenemos una serie de métodos semiparamétricos robustos hoy en día, ¿por qué vale la pena esta discusión?
Frank Harrell
(+1) Creo que podría haber valido la pena incluir el caso en el que una muestra se extrajo de una población sesgada y la otra no, ya que esto fue lo que el OP pensó que podría estar sucediendo con sus datos. Pero es bueno ver una respuesta con código explícito. (Una ligera generalización permitiría al lector investigar qué tan bien se comparan los métodos robustos con la prueba t tradicional, que es un ejercicio pedagógico útil si está tratando de enseñarle a alguien los peligros de aplicar una prueba cuyos supuestos han sido violados. .)
Silverfish
2

En su situación, la prueba t probablemente será sólida en términos de tasa de error de Tipo I, pero no de tasa de error de Tipo II. Probablemente lograrías más potencia a través de a) una prueba de Kruskal-Wallis, o b) una transformación de normalización antes de una prueba t.

Estoy basando esta conclusión en dos estudios de Monte Carlo. En el primero ( Khan y Rayner, 2003 ), la oblicuidad y la curtosis se manipularon indirectamente a través de los parámetros de la familia de distribución gyk, y se examinó la potencia resultante. Es importante destacar que el poder de la prueba de Kruskal-Wallis fue menos dañado por la no normalidad, particularmente para n> = 15.

Algunas advertencias / calificaciones sobre este estudio: el poder a menudo se vio afectado por la curtosis alta, pero se vio menos afectado por el sesgo. A primera vista, este patrón puede parecer menos relevante para su situación dado que notó un problema con sesgo, no con curtosis. Sin embargo, apuesto a que el exceso de curtosis también es extremo en su caso. Tenga en cuenta que el exceso de curtosis será al menos tan alto como sesgado ^ 2 - 2. (Deje que el exceso de curtosis sea igual al cuarto momento estandarizado menos 3, de modo que el exceso de curtosis = 0 para una distribución normal). Observe también que Khan y Rayner ( 2003) examinaron los ANOVA con 3 grupos, pero es probable que sus resultados se generalicen a una prueba t de dos muestras.

Un segundo estudio relevante ( Beasley, Erikson y Allison, 2009) examinaron los errores de Tipo I y Tipo II con varias distribuciones no normales, como Chi-cuadrado (1) y Weibull (1, .5). Para tamaños de muestra de al menos 25, la prueba t controlaba adecuadamente la tasa de error Tipo I en o por debajo del nivel alfa nominal. Sin embargo, la potencia fue más alta con una prueba de Kruskal-Wallis o con una transformación normal inversa basada en rango (puntajes de Blom) aplicada antes de la prueba t. Beasley y sus colegas en general argumentaron en contra del enfoque de normalización, pero debe tenerse en cuenta que el enfoque de normalización controlaba la tasa de error Tipo I para n> = 25, y su poder a veces excedía ligeramente el de la prueba de Kruskal-Wallis. Es decir, el enfoque de normalización parece prometedor para su situación. Vea las tablas 1 y 4 en su artículo para más detalles.

Referencias

Khan, A. y Rayner, GD (2003) . Robustez a la no normalidad de las pruebas comunes para el problema de ubicación de muchas muestras. Revista de Matemáticas Aplicadas y Ciencias de la Decisión, 7 , 187-206.

Beasley, TM, Erickson, S. y Allison, DB (2009) . Las transformaciones normales inversas basadas en el rango se utilizan cada vez más, pero ¿se merecen? Behavioral Genetics, 39 , 580-595.

Antonio
fuente
(exceso) curtosissesgar2-2
Esa parece una pregunta digna de su propio hilo. ¿Quizás le preocupa que el exceso de curtosis se sesgue hacia abajo en muestras pequeñas? Por supuesto, ese también fue el caso en los estudios de simulación anteriores, y la curtosis todavía causó baja potencia en la prueba t en esas situaciones. Su pregunta apunta a una limitación más general de la mayoría de los estudios de Monte Carlo: las conclusiones a menudo se basan en las características de la población, características que el investigador aplicado no puede observar. Sería más útil poder predecir el poder relativo en función del sesgo de la muestra, la curtosis, etc.
Anthony
He publicado una pregunta por separado sobre este tema: stats.stackexchange.com/questions/133247/…
Anthony
0

En primer lugar, si asume que la distribución de las dos muestras es diferente, asegúrese de estar utilizando la versión de Welch de la prueba t que asume variaciones desiguales entre los grupos. Esto al menos intentará explicar algunas de las diferencias que ocurren debido a la distribución.

Si miramos la fórmula para la prueba t de Welch:

t=X¯1-X¯2sX¯1-X¯2

sX¯1-X¯2

sX¯1-X¯2=s12norte1+s22norte2

podemos ver que cada vez que hay un s sabemos que la variación se está teniendo en cuenta. Imaginemos que las dos variaciones son de hecho iguales, pero una está sesgada, lo que lleva a una estimación de la variación diferente. Si esta estimación de la varianza no es realmente representativa de sus datos debido a la distorsión, entonces el efecto de sesgo real será esencialmente la raíz cuadrada de ese sesgo dividido por el número de puntos de datos utilizados para calcularlo. Por lo tanto, el efecto de los malos estimadores de varianza se amortigua un poco por la raíz cuadrada y una n más alta, y esa es probablemente la razón por la cual el consenso es que sigue siendo una prueba sólida.

El otro problema de las distribuciones sesgadas es que el cálculo medio también se verá afectado, y aquí es probablemente donde se encuentran los problemas reales de las infracciones de la suposición de prueba, ya que los medios son relativamente sensibles a la inclinación. Y la robustez de la prueba se puede determinar aproximadamente calculando la diferencia en las medias, en comparación con la diferencia en las medianas (como una idea). Tal vez incluso podría intentar reemplazar la diferencia de medias por la diferencia en las medianas en la prueba t como una medida más sólida (estoy seguro de que alguien ha discutido esto, pero no pude encontrar algo en Google lo suficientemente rápido como para vincularlo).

También sugeriría ejecutar una prueba de permutación si todo lo que está haciendo es una prueba t. La prueba de permutación es una prueba exacta, independiente de los supuestos de distribución. Lo más importante, las pruebas de permutación y la prueba t conducirán a resultados idénticos si se cumplen los supuestos de la prueba paramétrica . Por lo tanto, la medida de robustez que busca puede ser 1: la diferencia entre los valores p de permutación y prueba t, donde una puntuación de 1 implica robustez perfecta y 0 implica no robusto en absoluto.

Mensen
fuente