Poder de una prueba de Mann Whitney en comparación con la prueba

Por lo tanto, una prueba U de Mann Whitney es aproximadamente un 95% más potente que una prueba t cuando se cumplen los supuestos de normalidad y varianza homogénea de la prueba t. También sé que una prueba U de Mann Whitney es más poderosa que una prueba t cuando estos supuestos no se cumplen. Mi pregunta es, ¿es una prueba de Mann Whitney en datos donde los supuestos no se cumplen o son casi tan poderosos como una prueba t en datos donde se cumplen los supuestos?

Pregunto porque a menudo veo personas haciendo cálculos de potencia basados en la suposición de que realizarán en la prueba. Después de recopilar los datos, exploran los datos y deciden usar una prueba de Mann Whitney en su lugar y no vuelven a revisar cómo el cambio de la prueba afectó la potencia.

¡Gracias!

anova t-test power wilcoxon-mann-whitney Jimj
fuente

" También sé que una prueba U de Mann Whitney es más poderosa que una prueba t cuando estos supuestos no se cumplen ". Esa es una declaración demasiado fuerte. Digamos que los datos se distribuyeron uniformemente (por ejemplo). Dices que sabes que en esas circunstancias una prueba U es más poderosa que la t , pero no es el caso.

Glen_b -Reinstate Monica

Respuestas:

1) No se garantiza que la prueba de Mann-Whitney sea más poderosa que una prueba t cuando no se cumplen los supuestos de la prueba t, aunque sí lo es para el tipo de violaciones que tendemos a ver en el mundo real. Considere una distribución normal estándar truncada a +/- 100 y una diferencia entre las medias de dos grupos de 0.01; esto no es Normal, pero ambas pruebas funcionarán como si lo fuera, ya que la diferencia entre las dos distribuciones es muy pequeña.

2) La prueba t es la prueba uniformemente más poderosa para la diferencia entre las medias de dos variables normales, bla, bla, bla, por lo que el Mann-Whitney no la superará en ese tipo de datos sin importar qué. Sin embargo, lo peor que el Mann-Whitney puede realizar en relación con la prueba t es aproximadamente 0.864 en términos de eficiencia relativa asintótica, es decir, requeriría 1 / 0.864x tantos datos para obtener la misma potencia (asintóticamente). Hollander y Wolfe , Métodos estadísticos no paramétricos.) No hay ningún límite que vaya en la otra dirección. Reproduciendo algunos números de Hollander y Wolfe, para diferentes distribuciones obtenemos un ARE del MW para la prueba t de:

Normal: 0.955
Uniforme: 1.0 <- también un contraejemplo para que el MW sea mejor que el t para las diferencias no normales
Logística: 1.097
Doble exponencial: 1.5
Exponencial: 3.0
Cauchy (bueno, eso es fácil): $\infty$

El punto, por supuesto, es que no puedes dispararte en el pie usando la prueba de Mann-Whitney en lugar de la prueba t, pero lo contrario no es cierto.

jbowman
fuente

¿Por qué es fácil Cauchy? ¿Y por qué es ARE 0? Para N finito, la eficiencia relativa no puede ser , porque el poder de la prueba t no es 0. Pero con N infinito, la varianza de la distribución no está definida. ¡Ese Cauchy seguro es perverso!

inf

$\inf$

Peter Flom

@PeterFlom ¡Interesante por cierto! La diferencia entre el valor límite y el valor en el límite levanta su cabeza; Pitman ARE es el primero, no el último.

jbowman

@PeterFlom ARE se relaciona con la relación de las segundas derivadas ("curvatura") de las curvas de potencia en el valor nulo, ya que el tamaño de la muestra llega al infinito. Es posible que una curva de potencia tenga una derivada de cero segundos allí. En la práctica, en muestras de tamaño pequeño a moderado, las dos muestras t funcionan bien en Cauchy si no le importa que sus niveles de significación sean mucho más bajos que los valores nominales.

Glen_b -Reinstale a Monica el

En otras palabras, digamos que era vago y no quería comprobar mis suposiciones de normalidad, etc. y decidí seguir adelante y usar una prueba de MW en lugar de una prueba t. Podría usar la prueba MW y decir que, en el peor de los casos, necesitaría 1 / 0.864x tantos datos para lograr el mismo nivel de potencia que en la prueba donde se cumplieron todos los supuestos. ¿Tiene sentido?

Jimj

@Jimj no, eso no es lo que significa. Podría usar la prueba MW y decir que (en muestras grandes) en el peor de los casos necesitaría 1 / 0.864 veces más datos para lograr el mismo nivel de potencia que en la prueba en conjuntos de datos de la misma distribución (que 0.864 no sucede cuando se cumplen todos los supuestos de la t ... cuando lo son, el ARE es 0.955)

Glen_b -Reinstate Monica

¿Es una prueba de Mann Whitney sobre datos donde los supuestos no se satisfacen o son casi tan poderosos como una prueba t sobre datos donde se cumplen los supuestos?

Una frase como 'tan poderoso' realmente no funciona como una declaración general.

El poder no es especialmente comparable entre los diferentes modelos de distribución. El tamaño de un efecto dado tiene diferentes significados en diferentes partes de la distribución. Imagina que tienes una distribución que es bastante alta, pero tiene una cola pesada; ¿en qué medida decimos que un tamaño particular de desviación es similar a algo con un centro mucho más 'plano' y una cola más pequeña? Una pequeña desviación podría ser tan fácil de detectar, pero una gran desviación podría ser (en relación con la otra posibilidad de distribución por la que estamos tratando de comparar el poder) más difícil.

Con dos posibles conjuntos de distribuciones normales, un par con un SD grande y otro con un SD pequeño, es fácil decir 'bueno, la potencia solo escalará con la desviación estándar; Si definimos el tamaño de nuestro efecto en términos de número de desviaciones estándar, podemos relacionar las dos curvas de potencia '.

Pero ahora con distribuciones de formas diferentes , no hay una elección de escala obvia. Debemos tomar algunas decisiones sobre cómo compararlos. Las elecciones que hagamos determinarán cómo se "comparan".

Por ejemplo, ¿cómo comparo el poder cuando los datos son Cauchy con el poder cuando los datos son, por ejemplo, una beta escalada (2,2)? ¿Qué es un tamaño de efecto comparable? El Cauchy a continuación tiene más de su distribución entre -1 y 1 y menos de su distribución entre -3 y 3 que el otro. Sus rangos intercuartiles son diferentes, por ejemplo. ¿Cuál es nuestra base de comparación?

Cauchy vs beta escalada

Si puede resolver ese enigma, considere ahora si una de las distribuciones está sesgada a la izquierda y la otra es bimodal, o cualquiera de una miríada de otras posibilidades.

Todavía puede calcular el poder bajo cualquier conjunto particular de supuestos, pero la comparación de una prueba entre diferentes supuestos de distribución en lugar de dos pruebas bajo un supuesto de distribución dado es conceptualmente muy difícil.

Glen_b -Reinstate a Monica
fuente