Aparte de las pruebas, literalmente, cada combinación posible de la variable (s) en un modelo ( x1:x2
o x1*x2 ... xn-1 * xn
). ¿Cómo identificar si una interacción deberían o podrían existir entre el independiente (con suerte) las variables?
¿Cuáles son las mejores prácticas para intentar identificar interacciones? ¿Existe alguna técnica gráfica que puedas usar?
regression
modeling
interaction
Brandon Bertelsen
fuente
fuente
Respuestas:
Cox y Wermuth (1996) o Cox (1984) discutieron algunos métodos para detectar interacciones. El problema suele ser qué tan generales deberían ser los términos de interacción. Básicamente, (a) ajustamos (y probamos) todos los términos de interacción de segundo orden, uno a la vez, y (b) graficamos sus valores p correspondientes (es decir, los términos No. en función de ). Entonces, la idea es observar si se debe retener un cierto número de términos de interacción: bajo el supuesto de que todos los términos de interacción son nulos, la distribución de los valores p debe ser uniforme (o, de manera equivalente, los puntos en el diagrama de dispersión se deben distribuir aproximadamente a lo largo) una línea que pasa por el origen).1−p
Ahora, como dijo @Gavin , ajustar muchas (si no todas) las interacciones podría conducir a un sobreajuste, pero también es inútil en cierto sentido (algunos términos de interacción de alto orden a menudo no tienen ningún sentido). Sin embargo, esto tiene que ver con la interpretación, no con la detección de interacciones, y Cox ya proporcionó una buena revisión en Interpretación de la interacción: Una revisión ( The Annals of Applied Statistics 2007, 1 (2), 371–385). incluye referencias citadas anteriormente. Otras líneas de investigación que vale la pena observar son el estudio de los efectos epistáticos en los estudios genéticos, en particular los métodos basados en modelos gráficos (por ejemplo, un método eficiente para identificar interactuadores estadísticos en redes de asociación de genes ).
Referencias
fuente
Mi mejor práctica sería pensar en el problema a mano antes de ajustar el modelo. ¿Qué es un modelo plausible dado el fenómeno que estás estudiando? Ajustar todas las combinaciones posibles de variables e interacciones me suena a dragado de datos.
fuente
Ajustar un modelo de árbol (es decir, usar R) lo ayudará a identificar interacciones complejas entre las variables explicativas. Lea el ejemplo en la página 30 aquí .
fuente
Prefacio esta respuesta ya que estoy totalmente de acuerdo con Gavin, y si está interesado en adaptar cualquier tipo de modelo, debería reflejar el fenómeno en estudio. El problema con la lógica de identificar todos y cada uno de los efectos (y a lo que Gavin se refiere cuando dice dragado de datos) es que podría ajustarse a un número infinito de interacciones o términos cuadráticos para variables o transformaciones a sus datos, y usted inevitablemente encontraría efectos "significativos" para alguna variación de sus datos.
Como dice chl, estos efectos de interacción de orden superior realmente no tienen ninguna interpretación, y con frecuencia incluso las interacciones de orden inferior no tienen ningún sentido. Si está interesado en desarrollar un modelo causal, solo debe incluir términos que considere pertinentes para su variable dependiente A a priori para ajustar su modelo.
Si cree que pueden aumentar el poder predictivo de su modelo, debe buscar recursos sobre técnicas de selección de modelos para evitar un ajuste excesivo de su modelo.
fuente
Que tan grande esnorte ? cuantas observaciones tienes esto es crucial ...
Los índices de Sobol le indicarán la proporción de varianza explicada por la interacción si tiene muchas observaciones y algunasnorte , de lo contrario, tendrá que hacer modelado (lineal para comenzar). Tienes un buen paquete R para eso llamado sensibilidad. De todos modos, la idea es con frecuencia la de descomponer la varianza (también llamada ANOVA generalizada).
Si desea saber si esta proporción de varianza es significativa, tendrá que hacer un modelado (aproximadamente, necesita saber el número de grados de libertad de su modelo para compararlo con la varianza).
¿Son sus variables discretas o continuas? limitado o no realmente (es decir, no sabes el máximo)?
fuente