¿Qué resultado elegir cuando Kruskal-Wallis y Mann-Whitney parecen devolver resultados contradictorios?

10

Tengo estos grupos donde los valores son respuestas a un elemento Likert de 10 puntos:

g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)

Por lo tanto, utilicé Kruskal-Wallis para determinar las diferencias entre las respuestas en los grupos, y el resultado fue:

Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091

Sin embargo, si ejecuto una prueba exacta de Mann-Whitney entre los grupos g1 y g2 obtengo:

Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797

que devuelve una diferencia significativa en alfa = 0.05.

¿Qué prueba debo elegir y por qué?

mljrg
fuente
1
Para algunas risas y sobre el tema de los cortes en blanco y negro: mchankins.wordpress.com/2013/04/21/still-not-significant-2
Hank

Respuestas:

11

Estoy de acuerdo con la respuesta de Michael Chernick, pero creo que se puede hacer un poco más fuerte. Ignora el límite de 0.05 en la mayoría de las circunstancias. Solo es relevante para el enfoque de Neyman-Pearson, que es en gran medida irrelevante para el uso inferencial de las estadísticas en muchas áreas de la ciencia.

Ambas pruebas indican que sus datos contienen evidencia moderada contra la hipótesis nula. Considere esa evidencia a la luz de lo que sepa sobre el sistema y las consecuencias que se derivan de las decisiones (o indecisión) sobre el estado del mundo real. Argumentar un caso razonado y proceder de una manera que reconozca la posibilidad de una reevaluación posterior.

Explico más en este artículo: http://www.ncbi.nlm.nih.gov/pubmed/22394284

[Anexo agregado en noviembre de 2019: tengo una nueva referencia que explica los problemas con más detalle https://arxiv.org/abs/1910.02042v1 ]

Michael Lew
fuente
@MichaelChernick Me he dado cuenta de que hay mucho más en estadísticas que solo buscar "p <0.05". Michael Lew: descargué tu artículo y seguro que lo leeré. Seguiré su sugerencia para tener un buen razonamiento sobre mis datos en esta situación. ¡Gracias a todos!
mljrg
3
@MichaelLew No comparto su tenue visión del enfoque de Neyman-Pearson para la prueba de hipótesis. Sigo pensando que es fundamental la inferencia frecuentista. Es solo la estricta adherencia al nivel 0.05 a lo que me opongo.
Michael R. Chernick
@MichaelChernick Entonces, ¿estás diciendo que uno debería elegir un límite de importancia antes del experimento, o que puedes elegirlo después de que los resultados estén listos? El primero está bien, pero el segundo no. El enfoque de Neyman-Pearson se ocupa de las tasas de error, y la tasa de error tipo I solo está protegida cuando se elige de antemano el límite de importancia. Por lo tanto, si le informa a alguien que un poco más de 0.05 es lo suficientemente cercano porque podría haber elegido un límite superior, entonces no está utilizando el enfoque de Neyman-Pearson, sino un enfoque híbrido mal formado como explico en el artículo vinculado.
Michael Lew
Las personas pueden elegir 0.01, 0.05 o 0.10 si lo desean. Esto debe hacerse sin ser influenciado por los datos. Pero la elección de 0.01 o 0.05 no es el problema al que me refiero. ¡Es la creencia en blanco y negro en el nivel de significancia ya que esos 0.049 significa significación estadística y 0.0501 no lo es!
Michael R. Chernick
Los científicos son interesantes en evidencia pero no están obsesionados con la metodología utilizada para decidir la importancia.
Michael R. Chernick
13

La prueba de Mann-Whitney o Wilcoxon compara dos grupos, mientras que la prueba de Kruskal-Wallis compara 3. Al igual que en el ANOVA ordinario con tres o más grupos, el procedimiento generalmente sugerido es hacer primero la prueba ANOVA F general y luego ver las comparaciones por pares en caso hay una diferencia significativa. Yo haría lo mismo aquí con el ANOVA no paramétrico. Mi interpretación de su resultado es que existe una diferencia marginal entre los grupos en el nivel 0.05 y si acepta eso, la diferencia basada en la prueba de Mann-Whitney indica que podría atribuirse a que g y g son significativamente diferentes.12

¡No te obsesiones con la magia del nivel de significancia de 0.05! Solo porque la prueba de Kruskal-Wallis da un valor p ligeramente superior a 0.05, no tome eso como que no haya una diferencia estadísticamente significativa entre los grupos. Además, el hecho de que la prueba de Mann-Whitney proporcione un valor p para la diferencia entre g y g un poco por debajo de 0.03 no hace que la diferencia entre los dos grupos sea muy significativa. Ambos valores p están cerca de 0.05. Un conjunto de datos ligeramente diferente podría cambiar fácilmente al valor p de Kruskal-Wallis.12

Cualquier pensamiento que pueda tener de que los resultados son contradictorios tendría que venir de pensar en un límite de 0.05 como límite blanco y negro sin área gris en el vecindario de 0.05. Creo que estos resultados son razonables y bastante compatibles.

Michael R. Chernick
fuente
2
Comunicará mejor su respuesta cuando la vuelva a leer en busca de errores (en puntuación, gramática, tipografía y ortografía) y utilice un formato efectivo. Revise la página de ayuda de Markdown .
whuber
La opinión más clásica es que no logró encontrar significación estadística con su primera prueba, por lo que no debe informar (en una publicación profesional) ninguna prueba adicional como una indicación estadísticamente significativa de las diferencias entre los grupos. Hacerlo es usar un alfa diferente de .05. Esto es particularmente problemático (desde el punto de vista clásico) porque no eligió el alfa superior antes de realizar la prueba, por lo que se desconoce su alfa. Por supuesto, cuando intente comprender sus datos, para guiar su propio programa de investigación futura, puede tomar nota de la diferencia entre los grupos 1 y 2.
Joel W.
@JoelW. ¿Estás tratando de decirme que 0.05091 es realmente diferente de 0.05? De todos modos, mi punto no es cómo informar las conclusiones, sino más bien decir que las dos pruebas no entran en conflicto. Estoy de acuerdo en que se debe especificar de antemano cómo se analizan los datos antes de verlos.
Michael R. Chernick
1
@whuber Perdón por no editar la publicación anterior. Espero que se vea mucho mejor ahora.
Michael R. Chernick
@JoelW Su visión "más clásica" es en realidad el enfoque de inferencia del "comportamiento inductivo" de Neyman. Es relevante para un pequeño subconjunto de los usos de las estadísticas en apoyo de la inferencia. Es muy desafortunado que se presente con tanta frecuencia como clásico.
Michael Lew
4

Los resultados de la prueba U de Kruskal-Wallis y Mann-Whitney pueden diferir porque

  • Los rangos utilizados para la prueba U de Mann-Whitney no son los rangos usados ​​por la prueba de Kruskal-Wallis; y
  • Las pruebas de suma de rango no utilizan la varianza agrupada implícita en la hipótesis nula de Kruskal-Wallis.

Por lo tanto, no se recomienda utilizar la prueba U de Mann-whitney como prueba post hoc después de la prueba de Kruskal-Wallis.

Otras pruebas como la prueba de Dunn (de uso común), las pruebas Conover-Iman y Dwass-Steel-Citchlow-Fligner se pueden usar como prueba post-hoc para la prueba de kruskal-wallis.

Dra. Nisha Arora
fuente
3

Esto es en respuesta a @vinesh, así como al principio general en la pregunta original.

Realmente hay 2 problemas aquí con comparaciones múltiples: a medida que aumentamos el número de comparaciones que se realizan, tenemos más información que hace que sea más fácil ver las diferencias reales, pero el mayor número de comparaciones también hace que sea más fácil ver las diferencias que no existen. (falsos positivos, dragado de datos, tortura de los datos hasta que confiesa).

Piense en una clase con 100 estudiantes, cada uno de los estudiantes recibe una moneda justa y se le dice que lance la moneda 10 veces y use los resultados para probar la hipótesis nula de que la proporción de caras es del 50%. Esperaríamos que los valores de p oscilen entre 0 y 1 y, por casualidad, esperaríamos ver que alrededor de 5 de los estudiantes obtengan valores de p inferiores a 0.05. De hecho, estaríamos muy sorprendidos si ninguno de ellos obtuviera un valor p menor que 0.05 (menos del 1% de probabilidad de que eso suceda). Si solo observamos los pocos valores significativos e ignoramos todos los demás, concluiremos falsamente que las monedas están sesgadas, pero si usamos una técnica que tenga en cuenta las comparaciones múltiples, entonces probablemente todavía juzgaremos correctamente que las monedas son justas (o al menos no rechazar que ellos o justo).

Por otro lado, considere un caso similar en el que tenemos 10 estudiantes tirando un dado y determinando si el valor está en el conjunto {1,2,3} o el conjunto {4,5,6} cada uno de los cuales tendrá un 50% posibilidad de cada lanzamiento si el dado es justo (pero podría ser diferente si el dado está amañado). Los 10 estudiantes calculan los valores p (nulo es del 50%) y obtienen valores entre 0.06 y 0.25. Ahora, en este caso, ninguno de ellos alcanzó el límite mágico del 5%, por lo que mirar los resultados de los estudiantes individuales no dará como resultado una declaración no justa, pero todos los valores p son menores que 0.5, si todos los dados son justos entonces los valores p deberían estar distribuidos uniformemente y tener una probabilidad del 50% de estar por encima de 0.5. La posibilidad de obtener 10 valores p independientes, todos menores que 0.5 cuando los valores nulos son verdaderos, es menor que la magia 0.05 y esto sugiere que los dados están sesgados,

Ahora el lanzamiento de monedas y el lanzamiento de dados son un poco artificiales, por lo que un ejemplo diferente: tengo un nuevo medicamento que quiero probar. Mi presupuesto me permite probar la droga en 1,000 sujetos (esta será una comparación pareada con cada sujeto siendo su propio control). Estoy considerando 2 diseños de estudio diferentes, en el primero recluto a 1,000 sujetos para hacer el estudio e informar un solo valor p. En el segundo diseño, recluto a 1,000 sujetos pero los divido en 100 grupos de 10 cada uno, hago el estudio en cada uno de los 100 grupos de 10 y calculo un valor p para cada grupo (100 valores p totales). Piense en las posibles diferencias entre las 2 metodologías y cómo las conclusiones podrían diferir. Un enfoque objetivo requeriría que ambos diseños de estudio lleven a la misma conclusión (dados los mismos 1,000 pacientes y todo lo demás es igual).

@mljrg, ¿por qué elegiste comparar g1 y g2? Si se trataba de una cuestión de interés antes de recopilar datos, entonces el valor p de MW es razonable y significativo, sin embargo, si realizó la prueba KW, buscó para ver qué 2 grupos eran los más diferentes e hizo la prueba MW solo en aquellos que Parecían los más diferentes, luego se violaron los supuestos para la prueba de MW y el valor p de MW no tiene sentido y el valor p de KW es el único con significado potencial.

Greg Snow
fuente