¿Cuáles son las mejores prácticas en la identificación de los efectos de interacción?

35

Aparte de las pruebas, literalmente, cada combinación posible de la variable (s) en un modelo ( x1:x2o x1*x2 ... xn-1 * xn). ¿Cómo identificar si una interacción deberían o podrían existir entre el independiente (con suerte) las variables?

¿Cuáles son las mejores prácticas para intentar identificar interacciones? ¿Existe alguna técnica gráfica que puedas usar?

Brandon Bertelsen
fuente
¿Podría contarnos un poco sobre sus datos? tamaño (cf mi respuesta) y naturaleza (cf la respuesta de Gavin)
robin girard
@Robin: Dale tiempo para salir de la cama, Brandon está en Toronto ;-)
Restablece a Monica - G. Simpson el
1
@ Robin, preferiría que sea más general. Si, en su respuesta, está proporcionando un método que requiere una suposición sobre el tamaño o la naturaleza de los datos, indíquelo. El problema que tengo abarca varias tareas de modelado diferentes, todas con datos diferentes. Entonces, en este caso, estoy buscando recomendaciones generales para identificar los efectos de interacción.
Brandon Bertelsen

Respuestas:

20

Cox y Wermuth (1996) o Cox (1984) discutieron algunos métodos para detectar interacciones. El problema suele ser qué tan generales deberían ser los términos de interacción. Básicamente, (a) ajustamos (y probamos) todos los términos de interacción de segundo orden, uno a la vez, y (b) graficamos sus valores p correspondientes (es decir, los términos No. en función de ). Entonces, la idea es observar si se debe retener un cierto número de términos de interacción: bajo el supuesto de que todos los términos de interacción son nulos, la distribución de los valores p debe ser uniforme (o, de manera equivalente, los puntos en el diagrama de dispersión se deben distribuir aproximadamente a lo largo) una línea que pasa por el origen).1p

Ahora, como dijo @Gavin , ajustar muchas (si no todas) las interacciones podría conducir a un sobreajuste, pero también es inútil en cierto sentido (algunos términos de interacción de alto orden a menudo no tienen ningún sentido). Sin embargo, esto tiene que ver con la interpretación, no con la detección de interacciones, y Cox ya proporcionó una buena revisión en Interpretación de la interacción: Una revisión ( The Annals of Applied Statistics 2007, 1 (2), 371–385). incluye referencias citadas anteriormente. Otras líneas de investigación que vale la pena observar son el estudio de los efectos epistáticos en los estudios genéticos, en particular los métodos basados ​​en modelos gráficos (por ejemplo, un método eficiente para identificar interactuadores estadísticos en redes de asociación de genes ).

Referencias

  • Cox, DR y Wermuth, N (1996). Dependencias multivariantes: modelos, análisis e interpretación . Chapman y Hall / CRC.
  • Cox, DR (1984). Interacción . Revista estadística internacional , 52, 1–31.
chl
fuente
16

Mi mejor práctica sería pensar en el problema a mano antes de ajustar el modelo. ¿Qué es un modelo plausible dado el fenómeno que estás estudiando? Ajustar todas las combinaciones posibles de variables e interacciones me suena a dragado de datos.

Restablece a Mónica - G. Simpson
fuente
55
suena como un comentario o es la respuesta "pensar"?
robin girard
2
@Robin: el último. Encuentro el modelado estadístico bastante difícil (soy un ecólogo con poca capacitación estadística formal, la mayor parte de lo que he aprendido ha sido autodidacta) pero es mucho más fácil si primero pienso en el problema, determino qué es plausible, construir ese modelo, hacer mis diagnósticos del modelo, intentar interacciones donde tengan sentido científico.
Restablece a Monica - G. Simpson el
2
@ Brandon: Si falta una interacción, habrá patrones en los residuos condicionales a los valores de las covariables. El trazado de los residuos contra las covariables puede ayudar a determinar dónde puede ser apropiada una interacción.
Restablece a Monica - G. Simpson el
2
@ Brandon: Este es un diagnóstico de modelo estándar y habilidades de trazado exploratorio. Trazaría los residuos contra una de las covariables que creo que podrían ser candidatas para una interacción, condicionada (en la forma ggplot2 o reticular) a los valores de la covariable que creo que está involucrada en la interacción. Pegue un loess más suave a través de cada panel para ver si hay patrones. Depende de qué tipo de variables sean sus covariables.
Restablece a Monica - G. Simpson el
2
Dragado de datos? Si tortura los datos el tiempo suficiente, confesará ...
Curioso
16

Ajustar un modelo de árbol (es decir, usar R) lo ayudará a identificar interacciones complejas entre las variables explicativas. Lea el ejemplo en la página 30 aquí .

George Dontas
fuente
Muy simple y muy útil. ¡Gracias por la referencia al texto de Crawley también!
Brandon Bertelsen
Tenga cuidado: no puede encajar fácilmente ese tipo de interacciones en un modelo lineal. Las interacciones ocurren solo en una rama del árbol (o parte de). Necesita muchos datos para usar este tipo de herramientas en datos del mundo real.
Restablece a Monica - G. Simpson el
3
Como dijo @Gavin, una de las posibles dificultades es que los árboles de decisión necesitan un gran tamaño de muestra y son bastante inestables (que es una de las razones por las que se propusieron los bosques aleatorios y de embolsado como alternativas viables). Otro problema es que no está claro si buscamos efectos de interacción de segundo o mayor orden. En el primer caso, los CART no son una solución. En cualquier caso, encontraré muy dudosa cualquier interpretación de una interacción entre 6 variables en cualquier tipo de estudio (observacional o controlado).
chl
7

Prefacio esta respuesta ya que estoy totalmente de acuerdo con Gavin, y si está interesado en adaptar cualquier tipo de modelo, debería reflejar el fenómeno en estudio. El problema con la lógica de identificar todos y cada uno de los efectos (y a lo que Gavin se refiere cuando dice dragado de datos) es que podría ajustarse a un número infinito de interacciones o términos cuadráticos para variables o transformaciones a sus datos, y usted inevitablemente encontraría efectos "significativos" para alguna variación de sus datos.

Como dice chl, estos efectos de interacción de orden superior realmente no tienen ninguna interpretación, y con frecuencia incluso las interacciones de orden inferior no tienen ningún sentido. Si está interesado en desarrollar un modelo causal, solo debe incluir términos que considere pertinentes para su variable dependiente A a priori para ajustar su modelo.

Si cree que pueden aumentar el poder predictivo de su modelo, debe buscar recursos sobre técnicas de selección de modelos para evitar un ajuste excesivo de su modelo.

Andy W
fuente
7

Que tan grande es norte? cuantas observaciones tienes esto es crucial ...

Los índices de Sobol le indicarán la proporción de varianza explicada por la interacción si tiene muchas observaciones y algunasnorte, de lo contrario, tendrá que hacer modelado (lineal para comenzar). Tienes un buen paquete R para eso llamado sensibilidad. De todos modos, la idea es con frecuencia la de descomponer la varianza (también llamada ANOVA generalizada).

Si desea saber si esta proporción de varianza es significativa, tendrá que hacer un modelado (aproximadamente, necesita saber el número de grados de libertad de su modelo para compararlo con la varianza).

¿Son sus variables discretas o continuas? limitado o no realmente (es decir, no sabes el máximo)?

robin girard
fuente
Gracias por la dirección a los índices de Sobol. Nuevamente, me gustaría especificar que estoy buscando una respuesta general en lugar de una específica aquí. No estoy preguntando sobre un conjunto específico de datos, sino más bien tratando de explicar un problema que he tenido con varios conjuntos diferentes.
Brandon Bertelsen