¿Cómo probar un efecto de interacción con una prueba no paramétrica (por ejemplo, una prueba de permutación)?

10

Tengo dos variables categóricas / nominales. Cada uno de ellos puede tomar solo dos valores distintos (por lo tanto, tengo 4 combinaciones en total).

Cada combinación de valores viene con un conjunto de valores numéricos. Entonces, tengo 4 conjuntos de números. Para hacerlo más concreto, digamos que tengo male / femaley young / oldcomo las variables nominales y tengo weightcomo la "salida" numérica dependiente.

Sé que la transición de malea femalesí cambia el peso promedio y estos cambios son estadísticamente significativos. Entonces, puedo calcular un genderfactor. Lo mismo es aplicable a la agevariable. Sé que la transición de younga oldcambia el peso promedio y puedo calcular el agefactor correspondiente .

Ahora, lo que realmente quiero ver si los datos demuestran que la transición de mujeres jóvenes a hombres mayores es más que una combinación de factores de género y edad. En otras palabras, quiero saber si los datos prueban que hay "efectos 2D" o, en otras palabras, que los efectos de edad y género no son independientes. Por ejemplo, podría ser que envejecer para los hombres aumenta el peso en un factor 1.3 y para las mujeres el factor correspondiente es 1.1.

Por supuesto, puedo calcular los dos factores mencionados (factor de edad para hombres y factor de edad para mujeres) y son diferentes. Pero quiero calcular el significado estadístico de esta diferencia. Cuán real es esta diferencia.

Me gustaría hacer una prueba no paramétrica, si es posible. ¿Es posible hacer lo que quiero hacer mezclando los cuatro conjuntos, barajándolos, dividiéndolos y calculando algo?

hypothesis-testing p-value nonparametric permutation-test romano
fuente

2

Una dificultad para tratar la interacción de manera no paramétrica es que una transformación monotónica de la respuesta puede eliminar la interacción que estaba presente, inducir la interacción donde estaba ausente o cambiar la dirección de la interacción. Esto sugiere que los enfoques basados en rangos, por ejemplo, pueden no hacer lo que esperarías que hicieran.

Glen_b: reinstala a Monica

Con las pruebas de permutación en las variables originales, no tiene ese problema, pero resulta que no hay pruebas exactas de interacción. Puede obtener algunas pruebas aproximadas.

Glen_b -Reinstala a Monica el

5

Hay pruebas no paramétricas para la interacción. Hablando en términos generales, reemplaza los pesos observados por sus rangos y trata el conjunto de datos resultante como ANOVA heteroscedastic. Mire, por ejemplo, "Métodos no paramétricos en diseños factoriales" de Brunner y Puri (2001).

Sin embargo, el tipo de interacción no paramétrica que le interesa no se puede mostrar en esta generalidad. Tu dijiste:

En otras palabras, quiero saber si los datos prueban que hay "efectos 2D" o, en otras palabras, que los efectos de edad y género no son independientes. Por ejemplo, podría ser que envejecer para los hombres aumenta el peso en un factor 1.3 y para las mujeres el factor correspondiente es 1.1.

Lo último es imposible. La interacción no paramétrica debe implicar un cambio de signo, es decir, envejecer aumenta el peso de los machos pero disminuye el peso de las hembras. Tal cambio de signo permanece incluso si transforma monotónicamente los pesos. Pero puede elegir una transformación monótona en los datos que mapee el aumento de peso por el factor 1.1 tan cerca como desee de 1.3. Por supuesto, nunca mostrarás una diferencia significativa si puede estar tan cerca como quieras.

Si realmente está interesado en interacciones sin cambio de signo, debe apegarse al análisis paramétrico habitual. Allí, las transformaciones monótonas que "tragan la diferencia" no están permitidas. Por supuesto, esto es algo a tener en cuenta al modelar e interpretar sus estadísticas.

Horst Grünbusch
fuente

1

Si cree que los efectos de la edad y el género son más que solo los efectos individuales, puede considerar el modelo El $weight_i = \alpha \cdot age_i + \beta \cdot gender_i + \gamma \cdot (gender_i\cdot age_i).$ $\gamma$ El coeficiente captura el tamaño del efecto "2D" de la edad y el género. Puede verificar el estadístico t de para tener una idea aproximada de si el que observa en su modelo es significativamente diferente de . $\gamma$ $\gamma$ $\gamma = 0$

Aquí hay un ejemplo gráfico muy aproximado para mostrar lo que hace este término multiplicativo adicional . $gender_i\cdot age_i$

En el modelo , esencialmente tratamos de ajustar un hiperplano simple a los datos $response = x_1 + x_2$

Este modelo es lineal en las covariables, por lo tanto, la forma lineal que ve en la gráfica anterior.

$response = x_1 + x_2 + x_1\cdot x_2$ $x_1$ $x_2$

$\gamma = 0$

$\gamma$ $\hat{\gamma}$ $\hat{\gamma}$ $50 \pm p\%$ $2p\%$ $\gamma$

Mustafa S Eisa
fuente

¿Cómo puede ser esto no lineal si x1 y x2 solo pueden tomar valores de 0 o 1? ¿Cómo explicaría gamma en su ejemplo alguna forma de curvatura?

5ayat

∄ α \in R^{2} : x_{1} + x_{2} + x_{1} x_{2} = \sum_{i = 1}^{2} α_{i} x_{i}

$\nexists \alpha \in \mathbb {R}^2: x_1 + x_2 + x_1 x_2 = \sum_{i=1}^2 \alpha_i x_i$

Sin embargo, agregaré que cuando el dominio es binario (que es como los vértices del cubo 2D), puede tratar esta función linealmente. Pero la forma funcional es estrictamente no lineal.

Mustafa S Eisa

@MustafaMEisa, nunca he visto un término de interacción en un modelo lineal explicado en términos de "los vértices de un cubo 2D". Sería informativo si pudiera dar más detalles.

5 de

@ HorstGrünbusch, también tengo curiosidad por tu comentario sobre esta respuesta, ya que ya has hecho un comentario útil sobre mi respuesta.

5 de

1

w t = α + b_{1} a g e + b_{2} g e n d e r + b_{3} a g e * g e n d e r + ϵ

$wt = \alpha +b_1age+b_2gender+b_3age*gender+\epsilon$

\frac{\partial w t}{\partial g e n d e r} = b_{2} + b_{3} a g e

$\frac{\partial wt}{\partial gender} = b_2 + b_3age$

$gender = 0$ $age=0$ $gender = 1$ $age = 1$ $gender = 0$ $age = 1$ $gender = 1$ $age = 0$

w t = α + b_{1} y o u n g . m a l e + b_{2} o l d . m a l e + b_{3} y o u n g . f e m a l e + ϵ

$wt = \alpha + b_1young.male + b_2old.male + b_3young.female + \epsilon$

$old.female$ $b_1$ $old.female$ $young.male$ $\alpha$ $wt$ $old.female$

$\dots$

Los ejemplos anteriores son, por lo tanto, una forma demasiado complicada de llegar a esta conclusión (que realmente solo estamos comparando cuatro medios grupales), pero para aprender cómo funcionan las interacciones, creo que este es un ejercicio útil. Hay otras publicaciones muy buenas en CV sobre la interacción de una variable continua con una variable nominal o la interacción de dos variables continuas. Aunque su pregunta ha sido editada para especificar pruebas no paramétricas, creo que es útil pensar en su problema desde un enfoque más convencional (es decir, paramétrico), porque la mayoría de los enfoques no paramétricos para la prueba de hipótesis tienen la misma lógica pero generalmente con menos suposiciones sobre distribuciones específicas.

$wt$

$old.men$ $young.women$

Dejando de lado las interacciones "significativas"

$x_1$ $x_2$ $x_1$ $x_2$ Pero una vez más, si solo tenemos dos covariables que solo pueden tomar valores de 0 o 1, eso significa que esencialmente estamos viendo cuatro medias de grupo.

Ejemplo trabajado

Comparemos los resultados del modelo de interacción con los resultados de la prueba de Dunn. Primero, generemos algunos datos donde (a) los hombres pesen más que las mujeres, (b) los hombres más jóvenes pesen menos que los hombres mayores, y (c) no hay diferencia entre las mujeres más jóvenes y las mayores.

set.seed(405)
old.men<-rnorm(50,mean=80,sd=15)
young.men<-rnorm(50,mean=70,sd=15)
young.women<-rnorm(50,mean=60,sd=15)
old.women<-rnorm(50,mean=60,sd=15)
cat<-rep(1:4, c(50,50,50,50))
gender<-rep(1:2, c(100,100))
age<-c(rep(1,50),rep(2,100),rep(1,50))
wt<-c(old.men,young.men,young.women,old.women)
data<-data.frame(cbind(wt,cat,age,gender))
data$cat<-factor(data$cat,labels=c("old.men","young.men","young.women","old.women"))
data$age<-factor(data$age,labels=c("old","young"))
data$gender<-factor(data$gender,labels=c("male","female"))

$wt$

mod<-lm(wt~age*gender,data)
library(effects)
allEffects(mod)

 model: wt ~ age * gender

 age*gender effect
       gender
age         male   female
  old   80.61897 57.70635
  young 67.78351 56.01228

¿Necesita calcular un error estándar o un intervalo de confianza para su efecto marginal? El paquete de 'efectos' mencionado anteriormente puede hacer esto por usted, pero mejor aún, Aiken y West (1991) le dan las fórmulas, incluso para modelos de interacción mucho más complicados. Sus tablas están convenientemente impresas aquí , junto con muy buenos comentarios de Matt Golder.

Ahora para implementar la prueba de Dunn.

#install.packages("dunn.test")
dunn.test(data$wt, data$cat, method="bh")

Kruskal-Wallis chi-squared = 65.9549, df = 3, p-value = 0


                           Comparison of x by group                            
                             (Benjamini-Hochberg)                              
Col Mean-|
Row Mean |    old.men   young.me   young.wo
---------+---------------------------------
young.me |   3.662802
         |    0.0002*
         |
young.wo |   7.185657   3.522855
         |    0.0000*    0.0003*
         |
old.wome |   6.705346   3.042544  -0.480310
         |    0.0000*    0.0014*     0.3155

El valor p del resultado de la prueba de ji cuadrado de Kruskal-Wallis sugiere que al menos uno de nuestros grupos "proviene de una población diferente". Para las comparaciones de grupo por grupo, el número superior es el estadístico de la prueba z de Dunn, y el número inferior es un valor p, que se ha ajustado para comparaciones múltiples. Como nuestros datos de ejemplo eran bastante artificiales, no es sorprendente que tengamos tantos valores p pequeños. Pero tenga en cuenta la comparación inferior derecha entre mujeres más jóvenes y mayores. La prueba apoya correctamente la hipótesis nula de que no hay diferencia entre estos dos grupos.

$\dots$

ACTUALIZACIÓN: Dadas otras respuestas, esta respuesta se ha actualizado para disputar la idea de que esto requiere cualquier forma de modelado no lineal, o que, dado el ejemplo específico de OP de dos covariables binarias, es decir, cuatro grupos, que debe haber un el cambio de signo a evalúa esto de forma no paramétrica. Si la edad fuera continua, por ejemplo, habría otras formas de abordar este problema, pero ese no era el ejemplo dado por OP.

5ayat
fuente

No utilizas la estructura de dos factores cruzados. Simplemente compara cuatro grupos. La prueba de Dunn no trata sobre la interacción en absoluto.

Horst Grünbusch

De acuerdo, la prueba de Dunn no se trata de interacción. Sin embargo, la pregunta se refiere específicamente a una interacción entre dos variables binarias. Mi respuesta demuestra cómo esto es equivalente a comparar los cuatro grupos. Si los términos de interacción son nuevos para OP, es de esperar que esta sea una ilustración útil.

5 de

1

Entonces tienes estas variables aleatorias:

$A$ $\mathbb{N}$
$S$ $\{\text{male},\text{female}\}$
$W$ $]0, \infty[$

Y tiene estas funciones de probabilidad de masa / densidad:

$f_W$ $W$
$f_{W,A}$ $W,A$
$f_{W,S}$ $W,S$
$f_{W,A,S}$ $W,A,S$

$w$ $a$ $s$

$f_{W,A}(w,a) \ne f_W(w)$
$f_{W,S}(w,s) \ne f_W(w)$

f_{W, A, S} (w, a, s) \neq f_{W, A} (w, a) \neq f_{W, S} (w, s)

$f_{W,A,S}(w,a,s) \ne f_{W,A}(w,a) \ne f_{W,S}(w,s)$

$w$ $a$ $s$

Sin embargo, no conoce los verdaderos PDF conjuntos anteriores. Como desea limitarse a métodos no paramétricos, su tarea ahora es encontrar estas estimaciones no paramétricas:

$\hat f_{W,A}(w,a)$
$\hat f_{W,S}(w,s)$
$\hat f_{W,A,S}(w,a,s)$

Y luego muestra que:

Sus estimaciones de densidad son lo suficientemente precisas.
$\hat f_{W,A,S}(w,a,s) \ne \hat f_{W,A}(w,a) \ne \hat f_{W,S}(w,s)$
$\hat f_{W,A,S}(w,a,s) = \hat f_{W,A}(w,a) = \hat f_{W,S}(w,s)$

cavernícola
fuente

0

Eso sería verificar los efectos de interacción . El modelado lineal podría verificar tal cosa, pero no es no paramétrico, así que supongo que se debe usar otra herramienta.

¿Cómo estás revisando tu agey genderefecto hasta ahora?

EDITAR: Parece que esta respuesta te ayudaría

Riff
fuente

¿Cómo probar un efecto de interacción con una prueba no paramétrica (por ejemplo, una prueba de permutación)?

Respuestas:

Dejando de lado las interacciones "significativas"

Ejemplo trabajado