Ciertas hipótesis se pueden probar usando la prueba t de Student (quizás usando la corrección de Welch para las variaciones desiguales en el caso de dos muestras), o mediante una prueba no paramétrica como la prueba de rango con signo emparejado de Wilcoxon, la prueba U de Wilcoxon-Mann-Whitney, o la prueba de signo emparejado. ¿Cómo podemos tomar una decisión basada en principios sobre qué prueba es la más adecuada, particularmente si el tamaño de la muestra es "pequeño"?
Muchos libros de texto introductorios y apuntes de clase ofrecen un enfoque de "diagrama de flujo" en el que se verifica la normalidad (ya sea de forma desaconsejada , mediante una prueba de normalidad, o más ampliamente mediante un gráfico QQ o similar) para decidir entre una prueba t o una prueba no paramétrica. Para la prueba t de dos muestras no emparejada, puede haber una comprobación adicional de la homogeneidad de la varianza para decidir si se aplica la corrección de Welch. Un problema con este enfoque es la forma en que la decisión sobre qué prueba aplicar depende de los datos observados y cómo esto afecta el rendimiento (potencia, tasa de error Tipo I) de la prueba seleccionada.
Otro problema es cuán difícil es verificar la normalidad en pequeños conjuntos de datos: las pruebas formales tienen poca potencia, por lo que es posible que no se detecten violaciones, pero se aplican problemas similares a los datos en un gráfico QQ. Incluso las violaciones atroces podrían pasar desapercibidas, por ejemplo, si la distribución es mixta pero no se extrajeron observaciones de un componente de la mezcla. A diferencia de la gran , no podemos apoyarnos en la red de seguridad del Teorema del límite central y la normalidad asintótica del estadístico de prueba y la distribución t .
Una respuesta de principio a esto es "seguridad primero": sin forma de verificar de manera confiable el supuesto de normalidad en una muestra pequeña, adhiérase a los métodos no paramétricos. Otra es considerar cualquier motivo para asumir la normalidad, teóricamente (p. Ej., La variable es la suma de varios componentes aleatorios y se aplica CLT) o empíricamente (p. Ej., Los estudios previos con una variable mayor sugieren que es normal), y usar una prueba t solo si existen dichos motivos. . Pero esto generalmente solo justifica la normalidad aproximada , y con bajos grados de libertad es difícil juzgar qué tan cerca de lo normal debe ser para evitar invalidar una prueba t .
La mayoría de las guías para elegir una prueba t o una prueba no paramétrica se centran en el problema de la normalidad. Pero pequeñas muestras también arrojan algunos problemas secundarios:
Si se realiza una prueba t "muestras no relacionadas" o "no emparejadas", ¿se debe utilizar una corrección Welch ? Algunas personas usan una prueba de hipótesis para la igualdad de las variaciones, pero aquí tendría poca potencia; otros verifican si las SD están "razonablemente" cercanas o no (por varios criterios). ¿Es más seguro usar siempre la corrección de Welch para muestras pequeñas, a menos que haya alguna buena razón para creer que las variaciones de población son iguales?
Si ve la elección de métodos como una compensación entre potencia y robustez, las afirmaciones sobre la eficiencia asintótica de los métodos no paramétricos no son útiles . La regla general de que "las pruebas de Wilcoxon tienen aproximadamente el 95% de la potencia de una prueba t si los datos son realmente normales y, a menudo, son mucho más potentes si los datos no lo son, así que solo use un Wilcoxon" a veces se escucha, pero si el 95% solo se aplica a grande , este es un razonamiento defectuoso para muestras más pequeñas.
Las muestras pequeñas pueden hacer que sea muy difícil, o imposible, evaluar si una transformación es apropiada para los datos, ya que es difícil saber si los datos transformados pertenecen a una distribución (suficientemente) normal. Entonces, si un gráfico QQ revela datos sesgados muy positivos, que parecen más razonables después de tomar registros, ¿es seguro usar una prueba t en los datos registrados? En muestras más grandes, esto sería muy tentador, pero con una pequeña probablemente esperaría a menos que hubiera habido motivos para esperar una distribución logarítmica normal en primer lugar.
¿Qué pasa con la verificación de supuestos para los no paramétricos? Algunas fuentes recomiendan verificar una distribución simétrica antes de aplicar una prueba de Wilcoxon (tratándola como una prueba de ubicación en lugar de un dominio estocástico), lo que plantea problemas similares para verificar la normalidad. Si la razón por la que estamos aplicando una prueba no paramétrica en primer lugar es una obediencia ciega al mantra de "seguridad primero", entonces la dificultad para evaluar la asimetría de una muestra pequeña aparentemente nos llevaría a la menor potencia de una prueba de signos emparejados .
Con estos problemas de muestra pequeña en mente, ¿hay un buen procedimiento, con suerte de cita, para trabajar al decidir entre las pruebas t y no paramétricas?
Ha habido varias respuestas excelentes, pero una respuesta que considere otras alternativas a las pruebas de rango, como las pruebas de permutación, también sería bienvenida.
Respuestas:
Voy a cambiar el orden de las preguntas sobre.
Desafortunadamente, algunas discusiones sobre este tema en los libros y demás dependen de la sabiduría recibida. A veces esa sabiduría recibida es razonable, a veces lo es menos (al menos en el sentido de que tiende a enfocarse en un problema menor cuando se ignora un problema mayor); debemos examinar las justificaciones ofrecidas para el consejo (si se ofrece alguna justificación) con cuidado.
Eso es cierto, pero es algo equivocado por varias razones que abordo en esta respuesta.
Esto (para usarlo a menos que tenga razones para pensar que las variaciones deberían ser iguales) es el consejo de numerosas referencias. Señalo a algunos en esta respuesta.
Algunas referencias sobre esto se pueden ver aquí y aquí , aunque hay más que dicen cosas similares.
El problema de las varianzas iguales tiene muchas características similares al problema de la normalidad: las personas quieren probarlo, el consejo sugiere que la elección condicionada de las pruebas en los resultados de las pruebas puede afectar negativamente los resultados de ambos tipos de pruebas posteriores; es mejor simplemente no asumir qué no puede justificarse adecuadamente (razonando acerca de los datos, utilizando información de otros estudios relacionados con las mismas variables, etc.).
Sin embargo, hay diferencias. Una es que, al menos en términos de la distribución del estadístico de prueba bajo la hipótesis nula (y, por lo tanto, su robustez de nivel), la no normalidad es menos importante en muestras grandes (al menos con respecto al nivel de significación, aunque la potencia podría sigue siendo un problema si necesita encontrar pequeños efectos), mientras que el efecto de variaciones desiguales bajo el supuesto de varianza igual no desaparece con un gran tamaño de muestra.
Con las pruebas de hipótesis, lo que importa (bajo un conjunto de condiciones) es principalmente dos cosas:
¿Cuál es la tasa de error real tipo I?
¿Cómo es el comportamiento de poder?
También debemos tener en cuenta que si estamos comparando dos procedimientos, cambiar el primero cambiará el segundo (es decir, si no se llevan a cabo en el mismo nivel de significación real, es de esperar que un más alto esté asociado con mayor potencia).α
Consideraré una serie de situaciones en las que haré algunas recomendaciones, considerando tanto la posibilidad de no normalidad como las variaciones desiguales. En todos los casos, mencione la prueba t para implicar la prueba Welch:
No normal (o desconocido), es probable que tenga una varianza casi igual:
Si la distribución es de cola pesada, generalmente será mejor con un Mann-Whitney, aunque si es solo un poco pesado, la prueba t debería funcionar bien. Con colas ligeras se puede preferir la prueba t (a menudo). Las pruebas de permutación son una buena opción (incluso puede hacer una prueba de permutación usando una estadística t si está dispuesto). Las pruebas Bootstrap también son adecuadas.
No normal (o desconocido), varianza desigual (o relación de varianza desconocida):
Si la distribución es de cola pesada, generalmente será mejor con un Mann-Whitney, si la desigualdad de la varianza solo está relacionada con la desigualdad de la media, es decir, si H0 es verdadera, la diferencia en la propagación también debería estar ausente. Los GLM son a menudo una buena opción, especialmente si hay asimetría y la propagación está relacionada con la media. Una prueba de permutación es otra opción, con una advertencia similar a la de las pruebas basadas en rango. Las pruebas de Bootstrap son una buena posibilidad aquí.
Zimmerman y Zumbo (1993) sugieren una prueba de Welch-t en los rangos que, según dicen, funciona mejor que Wilcoxon-Mann-Whitney en los casos en que las variaciones son desiguales.[ 1 ]
las pruebas de rango son valores predeterminados razonables aquí si espera no normalidad (nuevamente con la advertencia anterior). Si tiene información externa sobre la forma o la varianza, puede considerar GLM. Si espera que las cosas no estén demasiado lejos de lo normal, las pruebas t pueden estar bien.
Debido al problema de obtener niveles de significancia adecuados, ni las pruebas de permutación ni las pruebas de rango pueden ser adecuadas, y en los tamaños más pequeños, una prueba t puede ser la mejor opción (hay alguna posibilidad de fortalecerla ligeramente). Sin embargo, hay un buen argumento para usar tasas de error de tipo I más altas con muestras pequeñas (de lo contrario, está permitiendo que las tasas de error de tipo II se inflen mientras mantiene constantes las tasas de error de tipo I). Ver también de Winter (2013) .[2]
El consejo debe modificarse de alguna manera cuando las distribuciones son muy sesgadas y muy discretas, como los ítems de la escala Likert donde la mayoría de las observaciones están en una de las categorías finales. Entonces el Wilcoxon-Mann-Whitney no es necesariamente una mejor opción que la prueba t.
La simulación puede ayudar a guiar aún más las opciones cuando tienes información sobre circunstancias probables.
Que es difícil comprobar la normalidad en un pequeño conjunto de datos, y en cierta medida en que es un tema importante, pero creo que hay otra cuestión de importancia que hay que tener en cuenta. Un problema básico es que tratar de evaluar la normalidad como la base para elegir entre las pruebas afecta negativamente las propiedades de las pruebas que está eligiendo.
Aquí hay un ejemplo de una referencia (hay otras) que es inequívoca (Fay y Proschan, 2010 ):[3]
Son igualmente inequívocos acerca de no probar la igualdad de varianza.
Ni siquiera en muestras grandes: la normalidad asintótica del numerador no implica que el estadístico t tendrá una distribución t. Sin embargo, eso puede no importar tanto, ya que aún debe tener normalidad asintótica (por ejemplo, CLT para el numerador, y el teorema de Slutsky sugiere que, con el tiempo, el estadístico t debería comenzar a verse normal, si las condiciones para ambos se mantienen).
Ese es realmente el consejo que dan las referencias que menciono (o enlace a menciones).
Ambos son buenos argumentos, especialmente cuando se respalda el hecho de que la prueba t es razonablemente robusta contra desviaciones moderadas de la normalidad. (Sin embargo, se debe tener en cuenta que "desviaciones moderadas" es una frase difícil; ciertos tipos de desviaciones de la normalidad pueden afectar bastante el rendimiento de la prueba t aunque esas desviaciones son visualmente muy pequeñas, la t- La prueba es menos robusta para algunas desviaciones que para otras. Debemos tener esto en cuenta siempre que discutamos pequeñas desviaciones de la normalidad).
Tenga cuidado, sin embargo, la frase "sugiere que la variable es normal". Ser razonablemente consistente con la normalidad no es lo mismo que la normalidad. A menudo podemos rechazar la normalidad real sin necesidad de ver los datos; por ejemplo, si los datos no pueden ser negativos, la distribución no puede ser normal. Afortunadamente, lo que importa está más cerca de lo que realmente podríamos tener de estudios previos o razonamientos sobre cómo se componen los datos, que es que las desviaciones de la normalidad deberían ser pequeñas.
Bueno, eso es algo de lo que podemos evaluar el impacto con bastante facilidad (como a través de simulaciones, como mencioné anteriormente). Por lo que he visto, la asimetría parece importar más que las colas pesadas (pero, por otro lado, he visto algunas afirmaciones de lo contrario, aunque no sé en qué se basa).
¡Pero podemos verificar la potencia de muestras pequeñas con bastante facilidad! Es bastante fácil simular para obtener curvas de potencia como aquí .[2]
(Nuevamente, también vea de Winter (2013) ).
Habiendo hecho tales simulaciones en una variedad de circunstancias, tanto para los casos de dos muestras como para los de una muestra / diferencia pareada, la eficiencia de la muestra pequeña en la normalidad en ambos casos parece ser un poco más baja que la eficiencia asintótica, pero la eficiencia del rango firmado y las pruebas de Wilcoxon-Mann-Whitney todavía es muy alto, incluso en muestras muy pequeñas.
Al menos eso si las pruebas se realizan al mismo nivel de significación real; no puede hacer una prueba de 5% con muestras muy pequeñas (y al menos no sin pruebas aleatorias, por ejemplo), pero si está preparado para hacer (por ejemplo) una prueba de 5.5% o 3.2%, entonces las pruebas de rango aguanta muy bien en comparación con una prueba t en ese nivel de significancia.
Hay otra alternativa: hacer una suposición paramétrica diferente. Por ejemplo, si hay datos asimétricos, uno podría, por ejemplo, en algunas situaciones considerar razonablemente una distribución gamma, o alguna otra familia asimétrica como una mejor aproximación: en muestras moderadamente grandes, podríamos usar un GLM, pero en muestras muy pequeñas puede ser necesario buscar una prueba de muestra pequeña; en muchos casos, la simulación puede ser útil.
Alternativa 2: robustecer la prueba t (pero cuidando la elección de un procedimiento robusto para no discretizar en gran medida la distribución resultante del estadístico de prueba): esto tiene algunas ventajas sobre un procedimiento no paramétrico de muestra muy pequeña, como la capacidad considerar pruebas con baja tasa de error tipo I.
Aquí estoy pensando en el uso de estimadores M de ubicación (y estimadores de escala relacionados) en la estadística t para robustecer suavemente contra las desviaciones de la normalidad. Algo parecido al Welch, como:
donde y , etc. son estimaciones robustas de ubicación y escala respectivamente.S∼2p=s∼2xnx+s∼2yny x∼ s∼x
Mi objetivo sería reducir cualquier tendencia de la estadística a la discreción, por lo que evitaría cosas como recortar y Winsorizing, ya que si los datos originales fueran discretos, el recorte, etc., exacerbará esto; Mediante el uso de enfoques de tipo M-estimación con una función suave, logra efectos similares sin contribuir a la discreción. Tenga en cuenta que estamos tratando de lidiar con la situación donde es muy pequeña (alrededor de 3-5, en cada muestra, por ejemplo), por lo que incluso la estimación M potencialmente tiene sus problemas.ψ n
Podría, por ejemplo, usar la simulación en la normalidad para obtener valores p (si los tamaños de muestra son muy pequeños, sugeriría que sobre bootstrapping; si los tamaños de muestra no son tan pequeños, un bootstrap implementado cuidadosamente puede funcionar bastante bien) , pero también podríamos volver a Wilcoxon-Mann-Whitney). Debe haber un factor de escala así como un ajuste de df para llegar a lo que imagino que sería una aproximación t razonable. Esto significa que deberíamos obtener el tipo de propiedades que buscamos muy cerca de lo normal, y deberíamos tener una robustez razonable en las inmediaciones de lo normal. Surgen varios problemas que estarían fuera del alcance de la presente pregunta, pero creo que en muestras muy pequeñas los beneficios deberían superar los costos y el esfuerzo adicional requerido.
[Hace mucho tiempo que no leo la literatura sobre estas cosas, así que no tengo referencias adecuadas para ofrecer sobre ese puntaje].
Por supuesto, si no esperaba que la distribución fuera algo normal, sino similar a alguna otra distribución, podría llevar a cabo una robustez adecuada de una prueba paramétrica diferente.
En efecto. Supongo que te refieres a la prueba de rango con signo *. En el caso de usarlo en datos emparejados, si está preparado para suponer que las dos distribuciones tienen la misma forma, aparte del cambio de ubicación, está seguro, ya que las diferencias deberían ser simétricas. En realidad, ni siquiera necesitamos tanto; para que la prueba funcione, necesita simetría bajo nulo; no se requiere bajo la alternativa (por ejemplo, considere una situación emparejada con distribuciones continuas sesgadas a la derecha de forma idéntica en la media línea positiva, donde las escalas difieren bajo la alternativa pero no bajo la nula; la prueba de rango con signo debería funcionar esencialmente como se esperaba en Ese caso). Sin embargo, la interpretación de la prueba es más fácil si la alternativa es un cambio de ubicación.
* (El nombre de Wilcoxon está asociado con las pruebas de rango de una y dos muestras: rango firmado y suma de rango; con su prueba U, Mann y Whitney generalizaron la situación estudiada por Wilcoxon e introdujeron nuevas ideas importantes para evaluar la distribución nula, pero La prioridad entre los dos grupos de autores en Wilcoxon-Mann-Whitney es claramente la de Wilcoxon, así que al menos si solo consideramos a Wilcoxon vs Mann & Whitney, Wilcoxon va primero en mi libro. Sin embargo, parece que la Ley de Stigler me golpea una vez más, y Wilcoxon tal vez debería compartir parte de esa prioridad con varios contribuyentes anteriores, y (además de Mann y Whitney) debería compartir el crédito con varios descubridores de una prueba equivalente. [4] [5])
Referencias
[1]: Zimmerman DW y Zumbo BN, (1993),
Transformaciones de rango y el poder de la prueba t de Student y la prueba t de Welch para poblaciones no normales,
Canadian Journal Experimental Psychology, 47 : 523-39.
[2]: JCF de Winter (2013),
"Uso de la prueba t de Student con tamaños de muestra extremadamente pequeños"
, Evaluación práctica, investigación y evaluación , 18 : 10, agosto, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10
[3]: Michael P. Fay y Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney o t-test? Sobre supuestos para pruebas de hipótesis e interpretaciones múltiples de reglas de decisión",
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]: Berry, KJ, Mielke, PW y Johnston, JE (2012),
"The Two-sample Rank-sum Test: Early Development",
Electronic Journal for History of Probability and Statistics , Vol.8, diciembre
pdf
[5]: Kruskal, WH (1957),
"Notas históricas sobre la prueba de dos muestras no emparejadas de Wilcoxon",
Journal of the American Statistical Association , 52 , 356–360.
fuente
En mi opinión, el enfoque basado en principios reconoce que (1) las pruebas y las evaluaciones gráficas de la normalidad tienen una sensibilidad insuficiente y la interpretación de los gráficos con frecuencia no es objetiva, (2) los procedimientos de varios pasos tienen características operativas inciertas, (3) muchas pruebas no paramétricas tienen excelentes características operativas en situaciones en las que las pruebas paramétricas tienen una potencia óptima, y (4) la transformación adecuada de generalmente no es la función de identidad, y no paramétricak t PY k Las pruebas de muestra son invariables para la transformación elegida (no es así para las pruebas de una muestra, como la prueba de rango con signo de Wilcoxon). Con respecto a (2), los procedimientos de varios pasos son particularmente problemáticos en áreas como el desarrollo de medicamentos, donde las agencias de supervisión como la FDA están legítimamente preocupadas por la posible manipulación de los resultados. Por ejemplo, un investigador sin escrúpulos podría olvidar convenientemente informar la prueba de normalidad si la prueba resulta en un valor bajo .t P
En conjunto, algunas sugerencias son las siguientes:
Estas recomendaciones son bastante generales, aunque su kilometraje puede variar para ciertos tamaños de muestra pequeños. Pero sabemos que para muestras más grandes, la eficiencia relativa de la prueba de 2 muestras de Wilcoxon y las pruebas de rango con signo en comparación con la prueba (si la varianza es igual en el caso de 2 muestras) es y que la eficiencia relativa de las pruebas de rango es con frecuencia mucho mayor que 1.0 cuando la distribución gaussiana no se cumple. Para mí, la pérdida de información en el uso de pruebas de rango es muy pequeña en comparación con las posibles ganancias, robustez, y la libertad de tener que especificar la transformación de .3t Y3π Y
Las pruebas no paramétricas pueden funcionar bien incluso si no se cumplen sus suposiciones de óptima. Para el problema de la muestra , las pruebas de rango no hacen suposiciones sobre la distribución de un grupo dado; solo hacen suposiciones sobre cómo las distribuciones de los grupos están conectadas entre sí, si requiere que la prueba sea óptima. Para un modelo ordinal de probabilidad acumulativa de link, se supone que las distribuciones tienen riesgos proporcionales. Para un modelo de probabilidad acumulativa de enlace logit (modelo de probabilidades proporcionales), se supone que las distribuciones están conectadas por los supuestos de probabilidades proporcionales, es decir, los logits de las funciones de distribución acumulativa son paralelos. La forma de una de las distribuciones es irrelevante. Los detalles se pueden encontrar enk - log - logk k −log−log http://biostat.mc.vanderbilt.edu/CourseBios330 en el Capítulo 15 de Folletos.
Hay dos tipos de supuestos de un método estadístico frecuenta que se consideran con frecuencia. El primero son los supuestos necesarios para que el método conserve el error tipo I. El segundo se relaciona con la preservación del error tipo II (optimización; sensibilidad). Creo que la mejor manera de exponer los supuestos necesarios para el segundo es incorporar una prueba no paramétrica en un modelo semiparamétrico como se hizo anteriormente. La conexión real entre los dos es de las pruebas de puntaje Rao eficientes que surgen del modelo semiparamétrico. El numerador de la prueba de puntaje de un modelo de probabilidades proporcionales para el caso de dos muestras es exactamente la estadística de suma de rango.
fuente
Rand Wilcox en sus publicaciones y libros hace algunos puntos muy importantes, muchos de los cuales fueron listados por Frank Harrell y Glen_b en publicaciones anteriores.
Algunas sugerencias clave son:
Dos buenas referencias son Wilcox ( 2010 ) y Wilcox ( 2012 ).
fuente
Bradley, en su trabajo Pruebas estadísticas sin distribución (1968, págs. 17-24) , presenta trece contrastes entre lo que él llama pruebas "clásicas" y "sin distribución". Tenga en cuenta que Bradley distingue entre "no paramétrico" y "sin distribución", pero a los fines de su pregunta, esta diferencia no es relevante. En esos trece se incluyen elementos que se relacionan no solo con los derivados de las pruebas, sino también con sus aplicaciones. Éstos incluyen:
fuente
Comenzando a responder esta pregunta muy interesante.
Para datos no emparejados:
Realización de cinco pruebas de ubicación de dos muestras para distribuciones sesgadas con variaciones desiguales por Morten W. Fagerland, Leiv Sandvik (detrás del muro de pago) realiza una serie de experimentos con 5 pruebas diferentes (prueba t, Welch U, Yuen-Welch, Wilcoxon-Mann -Whitney y Brunner-Munzel) para diferentes combinaciones de tamaño de muestra, relación de muestra, desviación de la normalidad, etc. El artículo termina sugiriendo a Welch U en general,
Pero el apéndice A del documento enumera los resultados para cada combinación de tamaños de muestra. Y para tamaños de muestra pequeños (m = 10 n = 10 o 25) los resultados son más confusos (como se esperaba): en mi estimación de los resultados (no de los autores) Welch U, Brunner-Munzel parece funcionar igual de bien, y La prueba t también funciona bien en m = 10 yn = 10 casos.
Esto es lo que sé hasta ahora.
Para una solución "rápida", solía citar el aumento de la conciencia de los médicos sobre el impacto de las estadísticas en los resultados de la investigación: poder comparativo de la prueba t y la prueba de suma de rangos de Wilcoxon en la investigación aplicada de muestras pequeñas de Patrick D Bridge y Shlomo S Sawilowsky (también detrás de paywall) y vaya directamente a Wilcoxon sin importar el tamaño de la muestra, pero tenga en cuenta que , por ejemplo, ¿debemos elegir siempre una prueba no paramétrica al comparar dos distribuciones aparentemente no normales? por Eva Skovlund y Grete U. Fensta .
Todavía no he encontrado ningún resultado similar para datos emparejados
fuente
Teniendo en cuenta los siguientes enlaces:
¿Las pruebas de normalidad son 'esencialmente inútiles'?
Necesidad y la mejor manera de determinar la normalidad de los datos.
Para simplificar las cosas, dado que las pruebas no paramétricas son razonablemente buenas incluso para datos normales, ¿por qué no usarlas siempre para muestras pequeñas?
fuente
Simulando la diferencia de medias de las poblaciones gamma
Comparando la prueba t y la prueba de Mann Whitney
Resumen de Resultados
Experimento 1) Diferentes medias, misma varianza
Fuentes:
Distribuciones poblacionales
Resultados de la simulación
Discusión
Discusión : cuando la varianza de las dos poblaciones es realmente la misma, la prueba de Mann Whitney supera ampliamente a la prueba t en términos de potencia para muestras pequeñas, pero tiene una tasa de error Tipo 1 más alta
Experimento 2: diferentes variaciones, la misma media
Discusión Los resultados de la simulación muestran que la prueba t es muy robusta a diferentes variaciones, y el error tipo I es cercano al 5% para todos los tamaños de muestra. Como se esperaba, la prueba de Mann Whitney funciona mal en este caso, ya que no está probando una diferencia en los medios sino una diferencia en las distribuciones
fuente