Esta es una pregunta de seguimiento a lo que Frank Harrell escribió aquí :
En mi experiencia, el tamaño de muestra requerido para que la distribución t sea precisa es a menudo mayor que el tamaño de muestra disponible. La prueba de rango con signo de Wilcoxon es extremadamente eficiente como dijiste, y es robusta, por lo que casi siempre la prefiero a la prueba t
Si lo entiendo correctamente, al comparar la ubicación de dos muestras no coincidentes, preferiríamos usar la prueba de suma de rango de Wilcoxon sobre la prueba t no emparejada, si nuestros tamaños de muestra son pequeños.
¿Existe una situación teórica en la que preferiríamos la prueba de suma de rangos de Wilcoxon sobre la prueba t no emparejada, incluso si los tamaños de muestra de nuestros dos grupos son relativamente grandes?
Mi motivación para esta pregunta proviene de la observación de que para una prueba t de muestra única, usarla para una muestra no tan pequeña de una distribución sesgada generará un error tipo I incorrecto:
n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error
fuente
Respuestas:
Sí hay. Por ejemplo, cualquier muestreo de distribuciones con varianza infinita arruinará la prueba t, pero no el Wilcoxon. Refiriéndome a los métodos estadísticos no paramétricos (Hollander y Wolfe), veo que la eficiencia relativa asintótica (ARE) del Wilcoxon en relación con la prueba t es 1.0 para la distribución Uniforme, 1.097 (es decir, Wilcoxon es mejor) para el Logístico, 1.5 para el doble exponencial (Laplace), y 3.0 para el exponencial.
Hodges y Lehmann demostraron que el ARE mínimo del Wilcoxon en relación con cualquier otra prueba es 0.864, por lo que nunca puede perder más del 14% de eficiencia al usarlo en relación con cualquier otra cosa. (Por supuesto, este es un resultado asintótico). En consecuencia, el uso de Frank Harrell del Wilcoxon como defecto probablemente debería ser adoptado por casi todos, incluido yo mismo.
Editar: Respondiendo a la pregunta de seguimiento en los comentarios, para aquellos que prefieren los intervalos de confianza, el estimador de Hodges-Lehmann es el estimador que "corresponde" a la prueba de Wilcoxon, y los intervalos de confianza se pueden construir alrededor de eso.
fuente
Permíteme traerte de vuelta a nuestra discusión en comentarios a esta tu pregunta. La prueba de suma de Wilcoxon es equivalente a la prueba U de Mann-Whitney (y su extensión directa para más de dos muestras se llama prueba de Kruskal-Wallis). Puede ver en Wikipedia y en este texto que Mann-Whitney (o Kruskal-Wallis) generalmente no compara medios ni medianas. Compara la prevalencia general de los valores: cuál de las muestras es "estocásticamente mayor". La prueba no tiene distribución. La prueba T compara medias. Asume una distribución normal. Entonces, las pruebas se involucran en diferentes hipótesis. En la mayoría de los casos, no planeamos comparar específicamente las medias, más bien, queremos saber qué muestra es mayor por valores, y hace que Mann-Whitney sea la prueba predeterminada para nosotros. Por otro lado, cuando ambas distribuciones son simétricas, la tarea de probar si una muestra es "mayor" que la otra degenera en la tarea de comparar las dos medias, y luego, si las distribuciones son normales con varianzas iguales, la prueba t se vuelve algo mas poderoso.
fuente