Cómo elegir entre la prueba t o la prueba no paramétrica, por ejemplo, Wilcoxon en muestras pequeñas

96

Ciertas hipótesis se pueden probar usando la prueba t de Student (quizás usando la corrección de Welch para las variaciones desiguales en el caso de dos muestras), o mediante una prueba no paramétrica como la prueba de rango con signo emparejado de Wilcoxon, la prueba U de Wilcoxon-Mann-Whitney, o la prueba de signo emparejado. ¿Cómo podemos tomar una decisión basada en principios sobre qué prueba es la más adecuada, particularmente si el tamaño de la muestra es "pequeño"?

Muchos libros de texto introductorios y apuntes de clase ofrecen un enfoque de "diagrama de flujo" en el que se verifica la normalidad (ya sea de forma desaconsejada , mediante una prueba de normalidad, o más ampliamente mediante un gráfico QQ o similar) para decidir entre una prueba t o una prueba no paramétrica. Para la prueba t de dos muestras no emparejada, puede haber una comprobación adicional de la homogeneidad de la varianza para decidir si se aplica la corrección de Welch. Un problema con este enfoque es la forma en que la decisión sobre qué prueba aplicar depende de los datos observados y cómo esto afecta el rendimiento (potencia, tasa de error Tipo I) de la prueba seleccionada.

Otro problema es cuán difícil es verificar la normalidad en pequeños conjuntos de datos: las pruebas formales tienen poca potencia, por lo que es posible que no se detecten violaciones, pero se aplican problemas similares a los datos en un gráfico QQ. Incluso las violaciones atroces podrían pasar desapercibidas, por ejemplo, si la distribución es mixta pero no se extrajeron observaciones de un componente de la mezcla. A diferencia de la gran , no podemos apoyarnos en la red de seguridad del Teorema del límite central y la normalidad asintótica del estadístico de prueba y la distribución t .n

Una respuesta de principio a esto es "seguridad primero": sin forma de verificar de manera confiable el supuesto de normalidad en una muestra pequeña, adhiérase a los métodos no paramétricos. Otra es considerar cualquier motivo para asumir la normalidad, teóricamente (p. Ej., La variable es la suma de varios componentes aleatorios y se aplica CLT) o empíricamente (p. Ej., Los estudios previos con una variable mayor sugieren que es normal), y usar una prueba t solo si existen dichos motivos. . Pero esto generalmente solo justifica la normalidad aproximada , y con bajos grados de libertad es difícil juzgar qué tan cerca de lo normal debe ser para evitar invalidar una prueba t .n

La mayoría de las guías para elegir una prueba t o una prueba no paramétrica se centran en el problema de la normalidad. Pero pequeñas muestras también arrojan algunos problemas secundarios:

  • Si se realiza una prueba t "muestras no relacionadas" o "no emparejadas", ¿se debe utilizar una corrección Welch ? Algunas personas usan una prueba de hipótesis para la igualdad de las variaciones, pero aquí tendría poca potencia; otros verifican si las SD están "razonablemente" cercanas o no (por varios criterios). ¿Es más seguro usar siempre la corrección de Welch para muestras pequeñas, a menos que haya alguna buena razón para creer que las variaciones de población son iguales?

  • Si ve la elección de métodos como una compensación entre potencia y robustez, las afirmaciones sobre la eficiencia asintótica de los métodos no paramétricos no son útiles . La regla general de que "las pruebas de Wilcoxon tienen aproximadamente el 95% de la potencia de una prueba t si los datos son realmente normales y, a menudo, son mucho más potentes si los datos no lo son, así que solo use un Wilcoxon" a veces se escucha, pero si el 95% solo se aplica a grande , este es un razonamiento defectuoso para muestras más pequeñas.n

  • Las muestras pequeñas pueden hacer que sea muy difícil, o imposible, evaluar si una transformación es apropiada para los datos, ya que es difícil saber si los datos transformados pertenecen a una distribución (suficientemente) normal. Entonces, si un gráfico QQ revela datos sesgados muy positivos, que parecen más razonables después de tomar registros, ¿es seguro usar una prueba t en los datos registrados? En muestras más grandes, esto sería muy tentador, pero con una pequeña probablemente esperaría a menos que hubiera habido motivos para esperar una distribución logarítmica normal en primer lugar.n

  • ¿Qué pasa con la verificación de supuestos para los no paramétricos? Algunas fuentes recomiendan verificar una distribución simétrica antes de aplicar una prueba de Wilcoxon (tratándola como una prueba de ubicación en lugar de un dominio estocástico), lo que plantea problemas similares para verificar la normalidad. Si la razón por la que estamos aplicando una prueba no paramétrica en primer lugar es una obediencia ciega al mantra de "seguridad primero", entonces la dificultad para evaluar la asimetría de una muestra pequeña aparentemente nos llevaría a la menor potencia de una prueba de signos emparejados .

Con estos problemas de muestra pequeña en mente, ¿hay un buen procedimiento, con suerte de cita, para trabajar al decidir entre las pruebas t y no paramétricas?

Ha habido varias respuestas excelentes, pero una respuesta que considere otras alternativas a las pruebas de rango, como las pruebas de permutación, también sería bienvenida.

Lepisma
fuente
2
Debería explicar qué podría ser un "método para elegir una prueba": los textos introductorios suelen utilizar diagramas de flujo. Para datos no apareados, tal vez: "1. Use algún método para verificar si ambas muestras están distribuidas normalmente (si no va a 3), 2. Use algún método para verificar las variaciones desiguales: si es así, realice una prueba t de dos muestras con La corrección de Welch, si no, se realiza sin corrección. 3. Intente transformar los datos a la normalidad (si funciona, vaya a 2, vaya a 4.) 4. Realice la prueba U en su lugar (posiblemente después de verificar varias suposiciones) ". ¡Pero muchos de estos pasos parecen insatisfactorios para la n pequeña, como espero que mi Q explique!
Silverfish
2
Pregunta interesante (+1) y un movimiento valiente para establecer una recompensa. Esperamos algunas respuestas interesantes. Por cierto, lo que a menudo veo aplicado en mi campo es una prueba de permutación (en lugar de la prueba t o Mann-Whitney-Wilcoxon). Supongo que también podría considerarse un contendiente digno. Aparte de eso, nunca especificó lo que quiere decir con "tamaño de muestra pequeño".
ameba
1
@Alexis Muchos libros afirman que la prueba de Wilcoxon supone una simetría sobre la mediana, al menos si los resultados se ven como una declaración sobre la ubicación (algunos recomiendan un diagrama de caja para verificar: vea mi discusión con Glen arriba / la respuesta de Frank Harrell a continuación para los peligros de varios pasos procedimiento). También algunas fuentes afirman que la U de Wilcoxon-Mann-Whitney supone que las distribuciones grupales difieren solo por la traducción (y sugieren un control visual en histogramas o CDF empíricos). A sig. La prueba U puede deberse a distribuciones de diferentes formas, incluso si las medianas son iguales. Véanse también los documentos citados en los comentarios bajo la respuesta de Frank Harrell.
Silverfish
3
@Silverfish "si los resultados se ven como una declaración sobre la ubicación" Esa es una advertencia importante, ya que estas pruebas son generalmente declaraciones sobre la evidencia de H . Hacer suposiciones de distribución adicionales reduce el alcance de la inferencia (por ejemplo, pruebas de diferencia de mediana), pero generalmente no son requisitos para las pruebas. 0:P(XA>XB)=0.5
Alexis
2
Puede valer la pena explorar cuán "defectuoso" es el razonamiento de "95% de potencia para el Wilcoxon" para muestras pequeñas (en parte, depende de qué, exactamente, uno hace y qué tan pequeño es pequeño). Si, por ejemplo, está contento de realizar pruebas de, digamos, 5.5% en lugar de 5%, si ese es el nivel de significancia alcanzable adecuado más cercano, el poder a menudo tiende a mantenerse bastante bien. Una vez que pueda, por supuesto, en la etapa de "cálculo de potencia" antes de recopilar datos, descubra cuáles son las circunstancias y tenga una idea de cuáles son las propiedades del Wilcoxon en los tamaños de muestra que está considerando.
Glen_b

Respuestas:

67

Voy a cambiar el orden de las preguntas sobre.

He encontrado que los libros de texto y las notas de las conferencias con frecuencia no están de acuerdo, y me gustaría que un sistema trabaje a través de la elección que pueda recomendarse de manera segura como la mejor práctica, y especialmente un libro de texto o papel al que pueda citarse.

Desafortunadamente, algunas discusiones sobre este tema en los libros y demás dependen de la sabiduría recibida. A veces esa sabiduría recibida es razonable, a veces lo es menos (al menos en el sentido de que tiende a enfocarse en un problema menor cuando se ignora un problema mayor); debemos examinar las justificaciones ofrecidas para el consejo (si se ofrece alguna justificación) con cuidado.

La mayoría de las guías para elegir una prueba t o una prueba no paramétrica se centran en el problema de la normalidad.

Eso es cierto, pero es algo equivocado por varias razones que abordo en esta respuesta.

Si se realiza una prueba t "muestras no relacionadas" o "no emparejadas", ¿se debe utilizar una corrección Welch?

Esto (para usarlo a menos que tenga razones para pensar que las variaciones deberían ser iguales) es el consejo de numerosas referencias. Señalo a algunos en esta respuesta.

Algunas personas usan una prueba de hipótesis para la igualdad de las variaciones, pero aquí tendría poca potencia. En general, solo observo si las SD de muestra están "razonablemente" cercanas o no (lo cual es algo subjetivo, por lo que debe haber una forma más basada en principios de hacerlo), pero nuevamente, con un n bajo, bien puede ser que las SD de la población estén bastante más lejos aparte de los de muestra.

¿Es más seguro usar siempre la corrección de Welch para muestras pequeñas, a menos que haya alguna buena razón para creer que las variaciones de población son iguales? Ese es el consejo. Las propiedades de las pruebas se ven afectadas por la elección basada en la prueba de suposición.

Algunas referencias sobre esto se pueden ver aquí y aquí , aunque hay más que dicen cosas similares.

El problema de las varianzas iguales tiene muchas características similares al problema de la normalidad: las personas quieren probarlo, el consejo sugiere que la elección condicionada de las pruebas en los resultados de las pruebas puede afectar negativamente los resultados de ambos tipos de pruebas posteriores; es mejor simplemente no asumir qué no puede justificarse adecuadamente (razonando acerca de los datos, utilizando información de otros estudios relacionados con las mismas variables, etc.).

Sin embargo, hay diferencias. Una es que, al menos en términos de la distribución del estadístico de prueba bajo la hipótesis nula (y, por lo tanto, su robustez de nivel), la no normalidad es menos importante en muestras grandes (al menos con respecto al nivel de significación, aunque la potencia podría sigue siendo un problema si necesita encontrar pequeños efectos), mientras que el efecto de variaciones desiguales bajo el supuesto de varianza igual no desaparece con un gran tamaño de muestra.

¿Qué método de principios se puede recomendar para elegir cuál es la prueba más apropiada cuando el tamaño de la muestra es "pequeño"?

Con las pruebas de hipótesis, lo que importa (bajo un conjunto de condiciones) es principalmente dos cosas:

  • ¿Cuál es la tasa de error real tipo I?

  • ¿Cómo es el comportamiento de poder?

También debemos tener en cuenta que si estamos comparando dos procedimientos, cambiar el primero cambiará el segundo (es decir, si no se llevan a cabo en el mismo nivel de significación real, es de esperar que un más alto esté asociado con mayor potencia).α

Con estos problemas de muestra pequeña en mente, ¿hay una buena lista de verificación, con suerte de cita, para trabajar al decidir entre las pruebas t y no paramétricas?

Consideraré una serie de situaciones en las que haré algunas recomendaciones, considerando tanto la posibilidad de no normalidad como las variaciones desiguales. En todos los casos, mencione la prueba t para implicar la prueba Welch:

  • n mediano-grande

No normal (o desconocido), es probable que tenga una varianza casi igual:

Si la distribución es de cola pesada, generalmente será mejor con un Mann-Whitney, aunque si es solo un poco pesado, la prueba t debería funcionar bien. Con colas ligeras se puede preferir la prueba t (a menudo). Las pruebas de permutación son una buena opción (incluso puede hacer una prueba de permutación usando una estadística t si está dispuesto). Las pruebas Bootstrap también son adecuadas.

No normal (o desconocido), varianza desigual (o relación de varianza desconocida):

Si la distribución es de cola pesada, generalmente será mejor con un Mann-Whitney, si la desigualdad de la varianza solo está relacionada con la desigualdad de la media, es decir, si H0 es verdadera, la diferencia en la propagación también debería estar ausente. Los GLM son a menudo una buena opción, especialmente si hay asimetría y la propagación está relacionada con la media. Una prueba de permutación es otra opción, con una advertencia similar a la de las pruebas basadas en rango. Las pruebas de Bootstrap son una buena posibilidad aquí.

Zimmerman y Zumbo (1993) sugieren una prueba de Welch-t en los rangos que, según dicen, funciona mejor que Wilcoxon-Mann-Whitney en los casos en que las variaciones son desiguales.[1]

  • n moderadamente pequeño

las pruebas de rango son valores predeterminados razonables aquí si espera no normalidad (nuevamente con la advertencia anterior). Si tiene información externa sobre la forma o la varianza, puede considerar GLM. Si espera que las cosas no estén demasiado lejos de lo normal, las pruebas t pueden estar bien.

  • n muy pequeño

Debido al problema de obtener niveles de significancia adecuados, ni las pruebas de permutación ni las pruebas de rango pueden ser adecuadas, y en los tamaños más pequeños, una prueba t puede ser la mejor opción (hay alguna posibilidad de fortalecerla ligeramente). Sin embargo, hay un buen argumento para usar tasas de error de tipo I más altas con muestras pequeñas (de lo contrario, está permitiendo que las tasas de error de tipo II se inflen mientras mantiene constantes las tasas de error de tipo I). Ver también de Winter (2013) .[2]

El consejo debe modificarse de alguna manera cuando las distribuciones son muy sesgadas y muy discretas, como los ítems de la escala Likert donde la mayoría de las observaciones están en una de las categorías finales. Entonces el Wilcoxon-Mann-Whitney no es necesariamente una mejor opción que la prueba t.

La simulación puede ayudar a guiar aún más las opciones cuando tienes información sobre circunstancias probables.

Aprecio que este es un tema perenne, pero la mayoría de las preguntas se refieren al conjunto de datos particular del interlocutor, a veces una discusión más general sobre el poder, y ocasionalmente qué hacer si dos pruebas no están de acuerdo, pero me gustaría un procedimiento para elegir la prueba correcta en ¡El primer lugar!

El principal problema es qué tan difícil es verificar el supuesto de normalidad en un pequeño conjunto de datos:

Que es difícil comprobar la normalidad en un pequeño conjunto de datos, y en cierta medida en que es un tema importante, pero creo que hay otra cuestión de importancia que hay que tener en cuenta. Un problema básico es que tratar de evaluar la normalidad como la base para elegir entre las pruebas afecta negativamente las propiedades de las pruebas que está eligiendo.

Cualquier prueba formal de normalidad tendría poca potencia, por lo que es posible que no se detecten violaciones. (Personalmente, no probaría para este propósito, y claramente no estoy solo, pero he encontrado este pequeño uso cuando los clientes exigen que se realice una prueba de normalidad porque eso es lo que su libro de texto o notas de clase anteriores o algún sitio web encontraron una vez la declaración debe hacerse. Este es un punto en el que una cita de mayor peso sería bienvenida).

Aquí hay un ejemplo de una referencia (hay otras) que es inequívoca (Fay y Proschan, 2010 ):[3]

La elección entre t- y WMW DR no debe basarse en una prueba de normalidad.

Son igualmente inequívocos acerca de no probar la igualdad de varianza.

Para empeorar las cosas, no es seguro utilizar el Teorema del límite central como una red de seguridad: para pequeñas n no podemos confiar en la conveniente normalidad asintótica de la estadística de prueba y la distribución t.

Ni siquiera en muestras grandes: la normalidad asintótica del numerador no implica que el estadístico t tendrá una distribución t. Sin embargo, eso puede no importar tanto, ya que aún debe tener normalidad asintótica (por ejemplo, CLT para el numerador, y el teorema de Slutsky sugiere que, con el tiempo, el estadístico t debería comenzar a verse normal, si las condiciones para ambos se mantienen).

Una respuesta de principio a esto es "seguridad primero": como no hay forma de verificar de manera confiable el supuesto de normalidad en una muestra pequeña, ejecute una prueba no paramétrica equivalente.

Ese es realmente el consejo que dan las referencias que menciono (o enlace a menciones).

Otro enfoque que he visto pero con el que me siento menos cómodo es realizar una verificación visual y proceder con una prueba t si no se observa nada desfavorable ("no hay razón para rechazar la normalidad", ignorando el bajo poder de esta verificación). Mi inclinación personal es considerar si existen motivos para suponer normalidad, teórica (p. Ej., La variable es la suma de varios componentes aleatorios y se aplica CLT) o empírica (p. Ej., Los estudios previos con n mayor sugieren que la variable es normal).

Ambos son buenos argumentos, especialmente cuando se respalda el hecho de que la prueba t es razonablemente robusta contra desviaciones moderadas de la normalidad. (Sin embargo, se debe tener en cuenta que "desviaciones moderadas" es una frase difícil; ciertos tipos de desviaciones de la normalidad pueden afectar bastante el rendimiento de la prueba t aunque esas desviaciones son visualmente muy pequeñas, la t- La prueba es menos robusta para algunas desviaciones que para otras. Debemos tener esto en cuenta siempre que discutamos pequeñas desviaciones de la normalidad).

Tenga cuidado, sin embargo, la frase "sugiere que la variable es normal". Ser razonablemente consistente con la normalidad no es lo mismo que la normalidad. A menudo podemos rechazar la normalidad real sin necesidad de ver los datos; por ejemplo, si los datos no pueden ser negativos, la distribución no puede ser normal. Afortunadamente, lo que importa está más cerca de lo que realmente podríamos tener de estudios previos o razonamientos sobre cómo se componen los datos, que es que las desviaciones de la normalidad deberían ser pequeñas.

Si es así, usaría una prueba t si los datos pasaron la inspección visual y, de lo contrario, me adheriría a los no paramétricos. Pero cualquier base teórica o empírica generalmente solo justifica suponer una normalidad aproximada, y con bajos grados de libertad es difícil juzgar qué tan cerca de lo normal debe ser para evitar invalidar una prueba t.

Bueno, eso es algo de lo que podemos evaluar el impacto con bastante facilidad (como a través de simulaciones, como mencioné anteriormente). Por lo que he visto, la asimetría parece importar más que las colas pesadas (pero, por otro lado, he visto algunas afirmaciones de lo contrario, aunque no sé en qué se basa).

Para las personas que ven la elección de métodos como una compensación entre potencia y robustez, las afirmaciones sobre la eficiencia asintótica de los métodos no paramétricos no son útiles. Por ejemplo, la regla general de que "las pruebas de Wilcoxon tienen aproximadamente el 95% de la potencia de una prueba t si los datos son realmente normales y, a menudo, son mucho más potentes si los datos no lo son, así que simplemente use un Wilcoxon". escuchado, pero si el 95% solo se aplica a n grande, este es un razonamiento defectuoso para muestras más pequeñas.

¡Pero podemos verificar la potencia de muestras pequeñas con bastante facilidad! Es bastante fácil simular para obtener curvas de potencia como aquí .
(Nuevamente, también vea de Winter (2013) ).[2]

Habiendo hecho tales simulaciones en una variedad de circunstancias, tanto para los casos de dos muestras como para los de una muestra / diferencia pareada, la eficiencia de la muestra pequeña en la normalidad en ambos casos parece ser un poco más baja que la eficiencia asintótica, pero la eficiencia del rango firmado y las pruebas de Wilcoxon-Mann-Whitney todavía es muy alto, incluso en muestras muy pequeñas.

Al menos eso si las pruebas se realizan al mismo nivel de significación real; no puede hacer una prueba de 5% con muestras muy pequeñas (y al menos no sin pruebas aleatorias, por ejemplo), pero si está preparado para hacer (por ejemplo) una prueba de 5.5% o 3.2%, entonces las pruebas de rango aguanta muy bien en comparación con una prueba t en ese nivel de significancia.

Las muestras pequeñas pueden hacer que sea muy difícil, o imposible, evaluar si una transformación es apropiada para los datos, ya que es difícil saber si los datos transformados pertenecen a una distribución (suficientemente) normal. Entonces, si un gráfico QQ revela datos sesgados muy positivos, que parecen más razonables después de tomar registros, ¿es seguro usar una prueba t en los datos registrados? En muestras más grandes, esto sería muy tentador, pero con una n pequeña probablemente esperaría a menos que hubiera habido motivos para esperar una distribución logarítmica normal en primer lugar.

Hay otra alternativa: hacer una suposición paramétrica diferente. Por ejemplo, si hay datos asimétricos, uno podría, por ejemplo, en algunas situaciones considerar razonablemente una distribución gamma, o alguna otra familia asimétrica como una mejor aproximación: en muestras moderadamente grandes, podríamos usar un GLM, pero en muestras muy pequeñas puede ser necesario buscar una prueba de muestra pequeña; en muchos casos, la simulación puede ser útil.

Alternativa 2: robustecer la prueba t (pero cuidando la elección de un procedimiento robusto para no discretizar en gran medida la distribución resultante del estadístico de prueba): esto tiene algunas ventajas sobre un procedimiento no paramétrico de muestra muy pequeña, como la capacidad considerar pruebas con baja tasa de error tipo I.

Aquí estoy pensando en el uso de estimadores M de ubicación (y estimadores de escala relacionados) en la estadística t para robustecer suavemente contra las desviaciones de la normalidad. Algo parecido al Welch, como:

xySp

donde y , etc. son estimaciones robustas de ubicación y escala respectivamente.Sp2=sx2nx+sy2nyxsx

Mi objetivo sería reducir cualquier tendencia de la estadística a la discreción, por lo que evitaría cosas como recortar y Winsorizing, ya que si los datos originales fueran discretos, el recorte, etc., exacerbará esto; Mediante el uso de enfoques de tipo M-estimación con una función suave, logra efectos similares sin contribuir a la discreción. Tenga en cuenta que estamos tratando de lidiar con la situación donde es muy pequeña (alrededor de 3-5, en cada muestra, por ejemplo), por lo que incluso la estimación M potencialmente tiene sus problemas.ψn

Podría, por ejemplo, usar la simulación en la normalidad para obtener valores p (si los tamaños de muestra son muy pequeños, sugeriría que sobre bootstrapping; si los tamaños de muestra no son tan pequeños, un bootstrap implementado cuidadosamente puede funcionar bastante bien) , pero también podríamos volver a Wilcoxon-Mann-Whitney). Debe haber un factor de escala así como un ajuste de df para llegar a lo que imagino que sería una aproximación t razonable. Esto significa que deberíamos obtener el tipo de propiedades que buscamos muy cerca de lo normal, y deberíamos tener una robustez razonable en las inmediaciones de lo normal. Surgen varios problemas que estarían fuera del alcance de la presente pregunta, pero creo que en muestras muy pequeñas los beneficios deberían superar los costos y el esfuerzo adicional requerido.

[Hace mucho tiempo que no leo la literatura sobre estas cosas, así que no tengo referencias adecuadas para ofrecer sobre ese puntaje].

Por supuesto, si no esperaba que la distribución fuera algo normal, sino similar a alguna otra distribución, podría llevar a cabo una robustez adecuada de una prueba paramétrica diferente.

¿Qué sucede si desea verificar los supuestos para los no paramétricos? Algunas fuentes recomiendan verificar una distribución simétrica antes de aplicar una prueba de Wilcoxon, lo que plantea problemas similares para verificar la normalidad.

En efecto. Supongo que te refieres a la prueba de rango con signo *. En el caso de usarlo en datos emparejados, si está preparado para suponer que las dos distribuciones tienen la misma forma, aparte del cambio de ubicación, está seguro, ya que las diferencias deberían ser simétricas. En realidad, ni siquiera necesitamos tanto; para que la prueba funcione, necesita simetría bajo nulo; no se requiere bajo la alternativa (por ejemplo, considere una situación emparejada con distribuciones continuas sesgadas a la derecha de forma idéntica en la media línea positiva, donde las escalas difieren bajo la alternativa pero no bajo la nula; la prueba de rango con signo debería funcionar esencialmente como se esperaba en Ese caso). Sin embargo, la interpretación de la prueba es más fácil si la alternativa es un cambio de ubicación.

* (El nombre de Wilcoxon está asociado con las pruebas de rango de una y dos muestras: rango firmado y suma de rango; con su prueba U, Mann y Whitney generalizaron la situación estudiada por Wilcoxon e introdujeron nuevas ideas importantes para evaluar la distribución nula, pero La prioridad entre los dos grupos de autores en Wilcoxon-Mann-Whitney es claramente la de Wilcoxon, así que al menos si solo consideramos a Wilcoxon vs Mann & Whitney, Wilcoxon va primero en mi libro. Sin embargo, parece que la Ley de Stigler me golpea una vez más, y Wilcoxon tal vez debería compartir parte de esa prioridad con varios contribuyentes anteriores, y (además de Mann y Whitney) debería compartir el crédito con varios descubridores de una prueba equivalente. [4] [5])

Referencias

[1]: Zimmerman DW y Zumbo BN, (1993),
Transformaciones de rango y el poder de la prueba t de Student y la prueba t de Welch para poblaciones no normales,
Canadian Journal Experimental Psychology, 47 : 523-39.

[2]: JCF de Winter (2013),
"Uso de la prueba t de Student con tamaños de muestra extremadamente pequeños"
, Evaluación práctica, investigación y evaluación , 18 : 10, agosto, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10

[3]: Michael P. Fay y Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney o t-test? Sobre supuestos para pruebas de hipótesis e interpretaciones múltiples de reglas de decisión",
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW y Johnston, JE (2012),
"The Two-sample Rank-sum Test: Early Development",
Electronic Journal for History of Probability and Statistics , Vol.8, diciembre
pdf

[5]: Kruskal, WH (1957),
"Notas históricas sobre la prueba de dos muestras no emparejadas de Wilcoxon",
Journal of the American Statistical Association , 52 , 356–360.

Glen_b
fuente
Un par de cosas sobre las que me gustaría aclarar. Hay varios puntos en los que menciona, por ejemplo, "Si la distribución es de cola pesada, ..." (o sesgada, etc.), presumiblemente esto debería leerse como "si es razonable suponer que la distribución será de cola pesada" (desde la teoría / estudios previos / lo que sea) en lugar de "si la muestra tiene una cola pesada", de lo contrario volveremos a las pruebas de varios pasos, ¿qué es lo que estamos tratando de evitar? (Me parece que un tema central en este tema es cómo justificar las creencias o suposiciones sobre las distribuciones, sin leer demasiado en la muestra).
Silverfish
Sí, eso debe entenderse como "se sabe que la población es de cola gruesa o se puede esperar razonablemente que sea de cola gruesa". Eso ciertamente incluye cosas como la teoría (o, a veces, incluso el razonamiento general sobre la situación que no alcanza el estado de teoría ), el conocimiento experto y los estudios previos. No sugiere pruebas de pesadez de cola. En situaciones en las que simplemente se desconoce, puede valer la pena investigar qué tan malas pueden estar las cosas bajo diversas distribuciones que pueden ser plausibles para la situación específica que tiene.
Glen_b
¿Hay alguna posibilidad de que esta respuesta ya excelente pueda incorporar un poco más de detalles sobre qué opciones podría haber para "robustecer" la prueba t?
Silverfish
Silverfish: no estoy seguro de haber respondido lo suficiente a su pregunta pidiendo detalles sobre la robustez. Agregaré un poco más ahora.
Glen_b
Muchas gracias por la adición, pensé que eso agregó mucho a la calidad de esta respuesta. Ahora que esta pregunta se ha calmado un poco y ha generado un buen conjunto de respuestas, me gustaría darle a la pregunta original una buena edición de copia y eliminar cualquier cosa que pueda ser engañosa (en beneficio de los lectores que no leen ¡la pregunta!). ¿Está bien cuando lo hago para que yo realice las modificaciones apropiadas a su respuesta para que las citas coincidan con la pregunta reorganizada?
Silverfish
22

En mi opinión, el enfoque basado en principios reconoce que (1) las pruebas y las evaluaciones gráficas de la normalidad tienen una sensibilidad insuficiente y la interpretación de los gráficos con frecuencia no es objetiva, (2) los procedimientos de varios pasos tienen características operativas inciertas, (3) muchas pruebas no paramétricas tienen excelentes características operativas en situaciones en las que las pruebas paramétricas tienen una potencia óptima, y ​​(4) la transformación adecuada de generalmente no es la función de identidad, y no paramétricak t PYkLas pruebas de muestra son invariables para la transformación elegida (no es así para las pruebas de una muestra, como la prueba de rango con signo de Wilcoxon). Con respecto a (2), los procedimientos de varios pasos son particularmente problemáticos en áreas como el desarrollo de medicamentos, donde las agencias de supervisión como la FDA están legítimamente preocupadas por la posible manipulación de los resultados. Por ejemplo, un investigador sin escrúpulos podría olvidar convenientemente informar la prueba de normalidad si la prueba resulta en un valor bajo .tP

En conjunto, algunas sugerencias son las siguientes:

  1. Si no hay una razón convincente para asumir una distribución gaussiana antes de examinar los datos, y no se necesita un ajuste covariable, utilice una prueba no paramétrica.
  2. Si se necesita un ajuste covariable, use la generalización de regresión semiparamétrica de la prueba de rango que prefiera. Para la prueba de Wilcoxon, este es el modelo de probabilidades proporcionales y para una prueba de puntaje normal, esta es la regresión probit ordinal.

Estas recomendaciones son bastante generales, aunque su kilometraje puede variar para ciertos tamaños de muestra pequeños. Pero sabemos que para muestras más grandes, la eficiencia relativa de la prueba de 2 muestras de Wilcoxon y las pruebas de rango con signo en comparación con la prueba (si la varianza es igual en el caso de 2 muestras) es y que la eficiencia relativa de las pruebas de rango es con frecuencia mucho mayor que 1.0 cuando la distribución gaussiana no se cumple. Para mí, la pérdida de información en el uso de pruebas de rango es muy pequeña en comparación con las posibles ganancias, robustez, y la libertad de tener que especificar la transformación de .3t Y3πY

Las pruebas no paramétricas pueden funcionar bien incluso si no se cumplen sus suposiciones de óptima. Para el problema de la muestra , las pruebas de rango no hacen suposiciones sobre la distribución de un grupo dado; solo hacen suposiciones sobre cómo las distribuciones de los grupos están conectadas entre sí, si requiere que la prueba sea óptima. Para un modelo ordinal de probabilidad acumulativa de link, se supone que las distribuciones tienen riesgos proporcionales. Para un modelo de probabilidad acumulativa de enlace logit (modelo de probabilidades proporcionales), se supone que las distribuciones están conectadas por los supuestos de probabilidades proporcionales, es decir, los logits de las funciones de distribución acumulativa son paralelos. La forma de una de las distribuciones es irrelevante. Los detalles se pueden encontrar enk - log - logkklogloghttp://biostat.mc.vanderbilt.edu/CourseBios330 en el Capítulo 15 de Folletos.

Hay dos tipos de supuestos de un método estadístico frecuenta que se consideran con frecuencia. El primero son los supuestos necesarios para que el método conserve el error tipo I. El segundo se relaciona con la preservación del error tipo II (optimización; sensibilidad). Creo que la mejor manera de exponer los supuestos necesarios para el segundo es incorporar una prueba no paramétrica en un modelo semiparamétrico como se hizo anteriormente. La conexión real entre los dos es de las pruebas de puntaje Rao eficientes que surgen del modelo semiparamétrico. El numerador de la prueba de puntaje de un modelo de probabilidades proporcionales para el caso de dos muestras es exactamente la estadística de suma de rango.

Frank Harrell
fuente
1
Gracias por esto, soy muy comprensivo con la filosofía de esta respuesta; por ejemplo, muchas fuentes sugieren que al menos debería verificar la normalidad de los datos del globo ocular antes de decidir sobre una prueba. Pero este tipo de procedimiento de varios pasos claramente, aunque sutilmente, influye en cómo funcionan las pruebas.
Silverfish
1
Algunas consultas: (1) supongamos que hay una buena razón para asumir una distribución gaussiana a priori (por ejemplo, estudios previos), por lo que preferimos una prueba t. Para la pequeña no tiene sentido tratar de evaluar la normalidad, no habría forma de detectar su incumplimiento. Pero para o menos, un gráfico QQ bien puede aparecer, por ejemplo, si hay un sesgo severo. ¿La filosofía de evitar los procedimientos de varios pasos significa que simplemente debemos justificar nuestra suposición de normalidad y luego proceder sin verificar la distribución aparente de nuestros datos? De manera similar, en el caso de la muestra k , ¿deberíamos asumir por defecto variaciones desiguales en lugar de intentar verificarlo? n = 15nn=15
Silverfish
3
(1) Me pregunto ¿cuál es su opinión sobre Mann-Whitney-Wilcoxon vs. pruebas de permutación (me refiero a prueba de permutación de Monte Carlo, cuando las etiquetas de grupo se barajan por ejemplo, veces y -valor se calcula directamente como el número de barajaduras que resultan en una diferencia de grupo mayor)? p10000p
ameba
44
Las pruebas de permutación son formas de controlar el error tipo I pero no abordan el error tipo II. Una prueba de permutación basada en estadísticas subóptimas (por ejemplo, media ordinaria y varianza cuando los datos provienen de una distribución log-gaussiana) sufrirá en términos de poder.
Frank Harrell el
3
Sí, el Capítulo 15 de los Folletos se amplía a un nuevo capítulo en la próxima segunda edición de mi libro, que presentaré a la editorial el próximo mes.
Frank Harrell
13

Rand Wilcox en sus publicaciones y libros hace algunos puntos muy importantes, muchos de los cuales fueron listados por Frank Harrell y Glen_b en publicaciones anteriores.

  1. La media no es necesariamente la cantidad sobre la que queremos hacer inferencias. Puede haber otras cantidades que mejor ejemplifiquen una observación típica .
  2. Para las pruebas t, la potencia puede ser baja incluso para pequeñas desviaciones de la normalidad.
  3. Para las pruebas t, la cobertura de probabilidad observada puede ser sustancialmente diferente de la nominal.

Algunas sugerencias clave son:

  1. Una alternativa sólida es comparar medias recortadas o estimadores M utilizando la prueba t. Wilcox sugiere 20% de medios recortados.
  2. Los métodos empíricos de probabilidad son teóricamente más ventajosos ( Owen, 2001 ), pero no necesariamente lo son para n medianas a pequeñas.
  3. Las pruebas de permutaciones son excelentes si se necesita controlar el error Tipo I, pero no se puede obtener CI.
  4. Para muchas situaciones, Wilcox propone el bootstrap-t para comparar medios recortados. En R, esto se implementa en las funciones yuenbt , yhbt en el paquete WRS .
  5. El bootstrap de percentil puede ser mejor que percentil-t cuando la cantidad de recorte es> / = 20%. En R esto se implementa en la función pb2gen en el paquete WRS mencionado anteriormente .

Dos buenas referencias son Wilcox ( 2010 ) y Wilcox ( 2012 ).

Thomas Speidel
fuente
8

Bradley, en su trabajo Pruebas estadísticas sin distribución (1968, págs. 17-24) , presenta trece contrastes entre lo que él llama pruebas "clásicas" y "sin distribución". Tenga en cuenta que Bradley distingue entre "no paramétrico" y "sin distribución", pero a los fines de su pregunta, esta diferencia no es relevante. En esos trece se incluyen elementos que se relacionan no solo con los derivados de las pruebas, sino también con sus aplicaciones. Éstos incluyen:

  • Elección del nivel de significación: las pruebas clásicas tienen niveles de significación continuos; Las pruebas sin distribución generalmente tienen observaciones discretas de los niveles de significación, por lo que las pruebas clásicas ofrecen más flexibilidad para establecer dicho nivel.
  • Validez lógica de la región de rechazo: las regiones de rechazo de prueba sin distribución pueden ser menos intuitivamente comprensibles (ni necesariamente suaves ni continuas) y pueden causar confusión sobre cuándo debe considerarse que la prueba ha rechazado la hipótesis nula.
  • Tipo de estadísticas que son comprobables: Para citar a Bradley directamente: "Las estadísticas definidas en términos de operaciones aritméticas sobre magnitudes de observación pueden probarse mediante técnicas clásicas, mientras que estas definidas por relaciones de orden (rango) o frecuencias de categoría, etc. pueden probarse mediante métodos libres de distribución. Los medios y las variaciones son ejemplos de los primeros y medianas y rangos intercuartiles, de los últimos " . Especialmente cuando se trata de distribuciones no normales, la capacidad de probar otras estadísticas se vuelve valiosa, dando peso a las pruebas libres de distribución .
  • Capacidad de prueba de interacciones de orden superior: mucho más fácil bajo pruebas clásicas que las pruebas sin distribución.
  • Influencia del tamaño de la muestra:Este es bastante importante en mi opinión. Cuando los tamaños de muestra son pequeños (Bradley dice que alrededor de n = 10), puede ser muy difícil determinar si los supuestos paramétricos subyacentes a las pruebas clásicas se han violado o no. Las pruebas sin distribución no tienen estos supuestos para ser violados. Además, incluso cuando no se han violado los supuestos, las pruebas sin distribución son a menudo casi tan fáciles de aplicar y casi tan eficientes como las pruebas. Entonces, para tamaños de muestra pequeños (menos de 10, posible hasta 30) Bradley favorece una aplicación casi rutinaria de pruebas sin distribución. Para tamaños de muestra grandes, el Teorema del límite central tiende a abrumar las violaciones paramétricas porque la media de la muestra y la varianza de la muestra tenderán a la normalidad, y las pruebas paramétricas pueden ser superiores en términos de eficiencia.
  • Alcance de la aplicación: Al no tener distribución, tales pruebas son aplicables a una clase de poblaciones mucho más grande que las pruebas clásicas que suponen una distribución específica.
  • Detección de violación de la suposición de una distribución continua: fácil de ver en pruebas sin distribución (por ejemplo, la existencia de puntajes vinculados), más difícil en las pruebas paramétricas.
  • Efecto de la violación del supuesto de una distribución continua: Si se viola el supuesto, la prueba se vuelve inexacta. Bradley pasa tiempo explicando cómo se pueden estimar los límites de la inexactitud para las pruebas sin distribución, pero no existe una rutina análoga para las pruebas clásicas.
Abraham
fuente
1
Gracias por la cita! El trabajo de Bradley parece bastante antiguo, por lo que sospecho que no tiene mucho trabajo en estudios de simulación modernos para comparar eficiencias y tasas de error de Tipo I / II en varios escenarios. También me interesaría lo que él sugiera sobre las pruebas de Brunner-Munzel: ¿deberían usarse en lugar de una prueba de U si las variaciones en los dos grupos no son iguales?
Silverfish
1
Bradley discute las eficiencias, aunque la mayoría de las veces, es en el contexto de la eficiencia relativa asintótica. A veces trae fuentes para declaraciones sobre la eficiencia finita del tamaño de la muestra, pero como el trabajo es de 1968, estoy seguro de que se han realizado análisis mucho mejores desde entonces. Hablando de eso, si tengo razón, Brunner y Munzel escribieron su artículo en 2000 , que explica por qué no se menciona en Bradley.
Abraham
¡Sí, eso sí lo explicaría! :) ¿Sabes si hay una encuesta más actualizada que Bradley?
Silverfish
Una breve búsqueda muestra que hay muchos textos recientes sobre estadísticas no paramétricas. Por ejemplo: Métodos estadísticos no paramétricos (Hollander et al, 2013), Pruebas de hipótesis no paramétricas: métodos de clasificación y permutación con aplicaciones en R (Bonnini et al, 2014), Inferencia estadística no paramétrica, quinta edición (Gibbons y Chakraborti, 2010). Hay muchos otros que aparecen en varias búsquedas. Como no tengo ninguno, no puedo hacer ninguna recomendación. Lo siento.
Abraham
5

Comenzando a responder esta pregunta muy interesante.

Para datos no emparejados:

Realización de cinco pruebas de ubicación de dos muestras para distribuciones sesgadas con variaciones desiguales por Morten W. Fagerland, Leiv Sandvik (detrás del muro de pago) realiza una serie de experimentos con 5 pruebas diferentes (prueba t, Welch U, Yuen-Welch, Wilcoxon-Mann -Whitney y Brunner-Munzel) para diferentes combinaciones de tamaño de muestra, relación de muestra, desviación de la normalidad, etc. El artículo termina sugiriendo a Welch U en general,

Pero el apéndice A del documento enumera los resultados para cada combinación de tamaños de muestra. Y para tamaños de muestra pequeños (m = 10 n = 10 o 25) los resultados son más confusos (como se esperaba): en mi estimación de los resultados (no de los autores) Welch U, Brunner-Munzel parece funcionar igual de bien, y La prueba t también funciona bien en m = 10 yn = 10 casos.

Esto es lo que sé hasta ahora.

Para una solución "rápida", solía citar el aumento de la conciencia de los médicos sobre el impacto de las estadísticas en los resultados de la investigación: poder comparativo de la prueba t y la prueba de suma de rangos de Wilcoxon en la investigación aplicada de muestras pequeñas de Patrick D Bridge y Shlomo S Sawilowsky (también detrás de paywall) y vaya directamente a Wilcoxon sin importar el tamaño de la muestra, pero tenga en cuenta que , por ejemplo, ¿debemos elegir siempre una prueba no paramétrica al comparar dos distribuciones aparentemente no normales? por Eva Skovlund y Grete U. Fensta .

Todavía no he encontrado ningún resultado similar para datos emparejados

Jacques Wainer
fuente
Agradezco las citas! Para aclarar, ¿se hace referencia a "Welch U", la misma prueba también conocida como "Welch t" o "Welch-Aspin t" o (como quizás lo denominé incorrectamente en la pregunta) "prueba t con corrección de Welch" ?
Silverfish
Según tengo entendido por el artículo, Welch U no es el Welch-Aspin habitual: no utiliza la ecuación Welch-Satterthwaite para los grados de libertad, sino una fórmula que tiene una diferencia del cubo y el cuadrado de la muestra Talla.
Jacques Wainer el
¿Sigue siendo una prueba t, a pesar de su nombre? En todas partes busco "Welch U", parece que se refiere al Welch-Aspin, lo cual es frustrante.
Silverfish
1

Simulando la diferencia de medias de las poblaciones gamma

Comparando la prueba t y la prueba de Mann Whitney

Resumen de Resultados

  • Cuando la varianza de las dos poblaciones es la misma, la prueba de Mann Whitney tiene mayor poder verdadero pero también mayor error verdadero tipo 1 que la prueba t.
  • H0
  • Cuando la varianza de dos poblaciones es diferente, la prueba de Mann Whitney conduce a un gran error tipo 1, incluso cuando las medias son las mismas. Esto se espera ya que Mann Whitney prueba la diferencia en las distribuciones, no en los medios.
  • La prueba t es robusta a las diferencias de varianza pero medias idénticas

Experimento 1) Diferentes medias, misma varianza

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

Fuentes:

Distribuciones poblacionales

ingrese la descripción de la imagen aquí

Resultados de la simulación

ingrese la descripción de la imagen aquí

Discusión

  • N=10
  • Para todos los tamaños de muestra, la prueba de Mann Whitney tiene más potencia que la prueba t, y en algunos casos por un factor de 2
  • Para todos los tamaños de muestra, la prueba de Mann Whitney tiene un error de tipo I mayor, y esto por un factor o 2 - 3
  • La prueba t tiene baja potencia para muestras pequeñas

Discusión : cuando la varianza de las dos poblaciones es realmente la misma, la prueba de Mann Whitney supera ampliamente a la prueba t en términos de potencia para muestras pequeñas, pero tiene una tasa de error Tipo 1 más alta


Experimento 2: diferentes variaciones, la misma media

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

Discusión Los resultados de la simulación muestran que la prueba t es muy robusta a diferentes variaciones, y el error tipo I es cercano al 5% para todos los tamaños de muestra. Como se esperaba, la prueba de Mann Whitney funciona mal en este caso, ya que no está probando una diferencia en los medios sino una diferencia en las distribuciones

ingrese la descripción de la imagen aquí

Xavier Bourret Sicotte
fuente