Tengo dos variables categóricas / nominales. Cada uno de ellos puede tomar solo dos valores distintos (por lo tanto, tengo 4 combinaciones en total).
Cada combinación de valores viene con un conjunto de valores numéricos. Entonces, tengo 4 conjuntos de números. Para hacerlo más concreto, digamos que tengo male / female
y young / old
como las variables nominales y tengo weight
como la "salida" numérica dependiente.
Sé que la transición de male
a female
sí cambia el peso promedio y estos cambios son estadísticamente significativos. Entonces, puedo calcular un gender
factor. Lo mismo es aplicable a la age
variable. Sé que la transición de young
a old
cambia el peso promedio y puedo calcular el age
factor correspondiente .
Ahora, lo que realmente quiero ver si los datos demuestran que la transición de mujeres jóvenes a hombres mayores es más que una combinación de factores de género y edad. En otras palabras, quiero saber si los datos prueban que hay "efectos 2D" o, en otras palabras, que los efectos de edad y género no son independientes. Por ejemplo, podría ser que envejecer para los hombres aumenta el peso en un factor 1.3 y para las mujeres el factor correspondiente es 1.1.
Por supuesto, puedo calcular los dos factores mencionados (factor de edad para hombres y factor de edad para mujeres) y son diferentes. Pero quiero calcular el significado estadístico de esta diferencia. Cuán real es esta diferencia.
Me gustaría hacer una prueba no paramétrica, si es posible. ¿Es posible hacer lo que quiero hacer mezclando los cuatro conjuntos, barajándolos, dividiéndolos y calculando algo?
Respuestas:
Hay pruebas no paramétricas para la interacción. Hablando en términos generales, reemplaza los pesos observados por sus rangos y trata el conjunto de datos resultante como ANOVA heteroscedastic. Mire, por ejemplo, "Métodos no paramétricos en diseños factoriales" de Brunner y Puri (2001).
Sin embargo, el tipo de interacción no paramétrica que le interesa no se puede mostrar en esta generalidad. Tu dijiste:
Lo último es imposible. La interacción no paramétrica debe implicar un cambio de signo, es decir, envejecer aumenta el peso de los machos pero disminuye el peso de las hembras. Tal cambio de signo permanece incluso si transforma monotónicamente los pesos. Pero puede elegir una transformación monótona en los datos que mapee el aumento de peso por el factor 1.1 tan cerca como desee de 1.3. Por supuesto, nunca mostrarás una diferencia significativa si puede estar tan cerca como quieras.
Si realmente está interesado en interacciones sin cambio de signo, debe apegarse al análisis paramétrico habitual. Allí, las transformaciones monótonas que "tragan la diferencia" no están permitidas. Por supuesto, esto es algo a tener en cuenta al modelar e interpretar sus estadísticas.
fuente
Si cree que los efectos de la edad y el género son más que solo los efectos individuales, puede considerar el modelo El γw e i gh tyo= α ⋅ a gmiyo+ β⋅ ge n de ryo+ γ⋅ ( ge n de ryo⋅ a gmiyo) . γ El coeficiente captura el tamaño del efecto "2D" de la edad y el género. Puede verificar el estadístico t de para tener una idea aproximada de si el γ que observa en su modelo es significativamente diferente de γ = 0 .γ γ γ= 0
Aquí hay un ejemplo gráfico muy aproximado para mostrar lo que hace este término multiplicativo adicional .sole n de ryo⋅ a gmiyo
En el modelo , esencialmente tratamos de ajustar un hiperplano simple a los datosr e s p o n s e = x1+ x2
Este modelo es lineal en las covariables, por lo tanto, la forma lineal que ve en la gráfica anterior.
fuente
Los ejemplos anteriores son, por lo tanto, una forma demasiado complicada de llegar a esta conclusión (que realmente solo estamos comparando cuatro medios grupales), pero para aprender cómo funcionan las interacciones, creo que este es un ejercicio útil. Hay otras publicaciones muy buenas en CV sobre la interacción de una variable continua con una variable nominal o la interacción de dos variables continuas. Aunque su pregunta ha sido editada para especificar pruebas no paramétricas, creo que es útil pensar en su problema desde un enfoque más convencional (es decir, paramétrico), porque la mayoría de los enfoques no paramétricos para la prueba de hipótesis tienen la misma lógica pero generalmente con menos suposiciones sobre distribuciones específicas.
Dejando de lado las interacciones "significativas"
Ejemplo trabajado
Comparemos los resultados del modelo de interacción con los resultados de la prueba de Dunn. Primero, generemos algunos datos donde (a) los hombres pesen más que las mujeres, (b) los hombres más jóvenes pesen menos que los hombres mayores, y (c) no hay diferencia entre las mujeres más jóvenes y las mayores.
¿Necesita calcular un error estándar o un intervalo de confianza para su efecto marginal? El paquete de 'efectos' mencionado anteriormente puede hacer esto por usted, pero mejor aún, Aiken y West (1991) le dan las fórmulas, incluso para modelos de interacción mucho más complicados. Sus tablas están convenientemente impresas aquí , junto con muy buenos comentarios de Matt Golder.
Ahora para implementar la prueba de Dunn.
El valor p del resultado de la prueba de ji cuadrado de Kruskal-Wallis sugiere que al menos uno de nuestros grupos "proviene de una población diferente". Para las comparaciones de grupo por grupo, el número superior es el estadístico de la prueba z de Dunn, y el número inferior es un valor p, que se ha ajustado para comparaciones múltiples. Como nuestros datos de ejemplo eran bastante artificiales, no es sorprendente que tengamos tantos valores p pequeños. Pero tenga en cuenta la comparación inferior derecha entre mujeres más jóvenes y mayores. La prueba apoya correctamente la hipótesis nula de que no hay diferencia entre estos dos grupos.
ACTUALIZACIÓN: Dadas otras respuestas, esta respuesta se ha actualizado para disputar la idea de que esto requiere cualquier forma de modelado no lineal, o que, dado el ejemplo específico de OP de dos covariables binarias, es decir, cuatro grupos, que debe haber un el cambio de signo a evalúa esto de forma no paramétrica. Si la edad fuera continua, por ejemplo, habría otras formas de abordar este problema, pero ese no era el ejemplo dado por OP.
fuente
Entonces tienes estas variables aleatorias:
Y tiene estas funciones de probabilidad de masa / densidad:
Sin embargo, no conoce los verdaderos PDF conjuntos anteriores. Como desea limitarse a métodos no paramétricos, su tarea ahora es encontrar estas estimaciones no paramétricas:
Y luego muestra que:
fuente
Eso sería verificar los efectos de interacción . El modelado lineal podría verificar tal cosa, pero no es no paramétrico, así que supongo que se debe usar otra herramienta.
¿Cómo estás revisando tu
age
ygender
efecto hasta ahora?EDITAR: Parece que esta respuesta te ayudaría
fuente