¿Cuándo utilizar la prueba de suma de rangos de Wilcoxon en lugar de la prueba t no emparejada?

Esta es una pregunta de seguimiento a lo que Frank Harrell escribió aquí :

En mi experiencia, el tamaño de muestra requerido para que la distribución t sea precisa es a menudo mayor que el tamaño de muestra disponible. La prueba de rango con signo de Wilcoxon es extremadamente eficiente como dijiste, y es robusta, por lo que casi siempre la prefiero a la prueba t

Si lo entiendo correctamente, al comparar la ubicación de dos muestras no coincidentes, preferiríamos usar la prueba de suma de rango de Wilcoxon sobre la prueba t no emparejada, si nuestros tamaños de muestra son pequeños.

¿Existe una situación teórica en la que preferiríamos la prueba de suma de rangos de Wilcoxon sobre la prueba t no emparejada, incluso si los tamaños de muestra de nuestros dos grupos son relativamente grandes?

Mi motivación para esta pregunta proviene de la observación de que para una prueba t de muestra única, usarla para una muestra no tan pequeña de una distribución sesgada generará un error tipo I incorrecto:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

t-test wilcoxon-mann-whitney Tal Galili
fuente

Para mí, 0.0572 parece lo suficientemente cerca de 0.05.

mark999

Hola Mark: cuando se realiza con menos de 100000 repeticiones de la hipótesis nula, no esperamos obtener este nivel de diferencia de 0.05. En general, esperaríamos una diferencia de más menos algo como dos veces de sqrt (0.05 * 0.95 / 100000) de 0.05

Tal Galili

Estoy de acuerdo en que es incorrecto. Solo quise decir que parece lo suficientemente cerca para fines prácticos.

mark999

Una pregunta relacionada: Cómo elegir entre la prueba t o la prueba no paramétrica, por ejemplo, Wilcoxon en muestras pequeñas , que considera tanto las pruebas pareadas como las no pareadas, así como alternativas a Wilcoxon como Brunner-Munzel. También hay una excelente respuesta de Frank Harrell que explica por qué se siente justificado en su enfoque con más detalle que el extracto anterior (por ejemplo, la importancia de la invariancia de los rangos bajo la transformación monotónica).

Silverfish

@TalGalili: ¿por qué no esperarías obtener este nivel de diferencia, considerando que estás haciendo una prueba t y se viola el supuesto de normalidad (veo que tu muestra está distribuida exponencialmente)? Estoy preguntando desde una perspectiva de novato, aquí. Solo estoy tratando de entender lo que esperamos, haciendo una prueba t de una muestra cuando se viola el supuesto de normalidad. ¿Por qué el error promedio de tipo I debe ser menor al 5%, o mayor al 5%, o algo así? A mi modo de ver, lo que estamos probando es

y la distribución es normal.

H_{0} : μ = 50

$H_0: \mu=50$

Erosennin

Respuestas:

Sí hay. Por ejemplo, cualquier muestreo de distribuciones con varianza infinita arruinará la prueba t, pero no el Wilcoxon. Refiriéndome a los métodos estadísticos no paramétricos (Hollander y Wolfe), veo que la eficiencia relativa asintótica (ARE) del Wilcoxon en relación con la prueba t es 1.0 para la distribución Uniforme, 1.097 (es decir, Wilcoxon es mejor) para el Logístico, 1.5 para el doble exponencial (Laplace), y 3.0 para el exponencial.

Hodges y Lehmann demostraron que el ARE mínimo del Wilcoxon en relación con cualquier otra prueba es 0.864, por lo que nunca puede perder más del 14% de eficiencia al usarlo en relación con cualquier otra cosa. (Por supuesto, este es un resultado asintótico). En consecuencia, el uso de Frank Harrell del Wilcoxon como defecto probablemente debería ser adoptado por casi todos, incluido yo mismo.

Editar: Respondiendo a la pregunta de seguimiento en los comentarios, para aquellos que prefieren los intervalos de confianza, el estimador de Hodges-Lehmann es el estimador que "corresponde" a la prueba de Wilcoxon, y los intervalos de confianza se pueden construir alrededor de eso.

jbowman
fuente

¿Existe una manera fácil de obtener un intervalo de confianza si se usa la prueba de Wilcoxon? Parece alentar a las personas a poner demasiado énfasis en el valor p, incluso más de lo que lo harían con un método paramétrico.

mark999

Sí, el estimador de Hodges-Lehmann es el estimador relevante, y he editado el cuerpo de la respuesta para que los futuros lectores no tengan que pasar por los comentarios.

jbowman

Gracias jbowman. No estoy familiarizado con el estimador de Hodges-Lehmann, pero veré qué puedo averiguar al respecto.

mark999 12/12/11

biostat.mc.vanderbilt.edu/WilcoxonSoftware muestra cómo usar R para obtener la estimación de Hodges-Lehmann y su intervalo de confianza.

Frank Harrell

(+1) de un tradicionalista anti-rango pesado. Sin embargo, un desafío para las pruebas de rango es que la hipótesis es vaga. Generalmente no es la misma hipótesis que la prueba t. La prueba t prueba una diferencia de medias siempre, Wilcoxon prueba una diferencia de rango de media ponderada. Ciertamente, si la diferencia de rango promedio es estadísticamente significativa, sabemos que las distribuciones deben diferir, incluso si sus medias son las mismas. Ninguna de las pruebas funciona para detectar diferencias de distribución en todos los casos. Solo digo eso porque estoy a favor de la interpretabilidad. (1/2)

AdamO

Permíteme traerte de vuelta a nuestra discusión en comentarios a esta tu pregunta. La prueba de suma de Wilcoxon es equivalente a la prueba U de Mann-Whitney (y su extensión directa para más de dos muestras se llama prueba de Kruskal-Wallis). Puede ver en Wikipedia y en este texto que Mann-Whitney (o Kruskal-Wallis) generalmente no compara medios ni medianas. Compara la prevalencia general de los valores: cuál de las muestras es "estocásticamente mayor". La prueba no tiene distribución. La prueba T compara medias. Asume una distribución normal. Entonces, las pruebas se involucran en diferentes hipótesis. En la mayoría de los casos, no planeamos comparar específicamente las medias, más bien, queremos saber qué muestra es mayor por valores, y hace que Mann-Whitney sea la prueba predeterminada para nosotros. Por otro lado, cuando ambas distribuciones son simétricas, la tarea de probar si una muestra es "mayor" que la otra degenera en la tarea de comparar las dos medias, y luego, si las distribuciones son normales con varianzas iguales, la prueba t se vuelve algo mas poderoso.

ttnphns
fuente

+1 por vincular su respuesta al significado de las hipótesis que se están probando.

Josh Hemann

Por "cuál de las muestras es" estocásticamente mayor "", ¿quiere decir "cuál de las muestras generalmente toma valores mayores en comparación con la otra"? Si no, ¿qué quieres decir? ¿Podrías dar más detalles sobre esto, por favor?

Erdogan CEVHER

@Erdogan, sí, podemos decir como dijiste. La redacción estricta es la siguiente: en un par de objetos elegidos al azar, uno de cada muestra, el objeto de la muestra "estocásticamente más dominante" será más alto (por el valor) que el objeto de la otra muestra con probabilidad> 0.5.

ttnphns