Digamos que tenemos los siguientes datos:
set.seed(123)
data <- data.frame(x = c(rnorm(50, 1, 1), rnorm(50, 5, 2)),
y = c(rep('A', 50), rep('B', 50)))
Lo que produce el siguiente diagrama de caja ( boxplot(data$x ~ data$y)
):
Ahora digamos que quiero probar si las dos muestras tienen los mismos parámetros de ubicación (mediana y / o media). En mi caso real, los datos claramente no son normales , así que decidí ejecutar la prueba de Wilcoxon-Mann-Whitney, así:
wilcox.test(data$x ~ data$y)
Sin embargo, me gustaría que la hipótesis alternativa sea que B, data$y
el "segundo" factor, proviene de una distribución con parámetros de posición más altos. Intenté establecer el alternative
parámetro en "mayor" y "menor", pero aparentemente las hipótesis alternativas no son lo que estoy buscando. Por ejemplo, alternative = "greater"
me dice "hipótesis alternativa: el cambio de ubicación verdadero es mayor que 0"; alternative = "less"
me dice "hipótesis alternativa: el cambio de ubicación verdadero es menor que 0".
¿Cómo puedo ajustar la wilcox.test()
función para tener la hipótesis alternativa que quiero (B proviene de una distribución con parámetros de posición más altos que A)? ¿O debería usar otra prueba en su lugar?
fuente
rnorm()
, por lo que tienen que ser normales . Me pregunto si estás confundido acerca de la naturaleza del supuesto de normalidad; puede ayudarlo a leer este hilo: ¿Qué pasa si los residuos se distribuyen normalmente pero y no ?Respuestas:
Técnicamente, la categoría de referencia y la dirección de la prueba dependen de la forma en que se codifica la variable factor. Con los datos de tu juguete:
Observe que la estadística W es la misma en ambos casos, pero la prueba usa colas opuestas de su distribución de muestreo. Ahora veamos la variable factor:
Podemos recodificarlo para hacer que "B" sea el primer nivel:
Ahora tenemos:
Tenga en cuenta que no cambiamos los datos ellos mismos , solo la forma en que la variable categórica se codifica "bajo el capó":
Pero las direcciones de la prueba ahora están invertidas:
La estadística W es diferente, pero el valor p es el mismo que para la
alternative="less"
prueba con las categorías en el orden original. Con los datos originales, podría interpretarse como "el cambio de ubicación de B a A es menor que 0" y con los datos recodificados se convierte en "el cambio de ubicación de A a B es mayor que 0", pero esta es realmente la misma hipótesis (pero vea los comentarios de Glen_b a la pregunta para la interpretación correcta).En su caso, parece que la prueba que desea es
alternative="less"
(o, de manera equivalente,alternative="greater"
con los datos recodificados). ¿Eso ayuda?fuente