¿Es válido incluir una interacción bidireccional en un modelo sin incluir los efectos principales? ¿Qué pasa si su hipótesis es solo acerca de la interacción, todavía necesita incluir los efectos principales?
85
¿Es válido incluir una interacción bidireccional en un modelo sin incluir los efectos principales? ¿Qué pasa si su hipótesis es solo acerca de la interacción, todavía necesita incluir los efectos principales?
Respuestas:
En mi experiencia, no solo es necesario tener todos los efectos de orden inferior en el modelo cuando están conectados a efectos de orden superior, sino que también es importante modelar adecuadamente (por ejemplo, permitir que sean no lineales) los efectos principales que aparentemente no están relacionados con Los factores en las interacciones de interés. Esto se debe a que las interacciones entre y x 2 pueden ser sustitutos de los efectos principales de x 3 y x 4 . Las interacciones a veces parecen ser necesarias porque son colineales con variables omitidas o términos no lineales omitidos (por ejemplo, spline).X1 X2 X3 X4 4
fuente
Usted pregunta si alguna vez es válido. Permítanme proporcionar un ejemplo común, cuya aclaración puede sugerir enfoques analíticos adicionales para usted.
El ejemplo más simple de una interacción es un modelo con una variable dependiente y dos variables independientes X , Y en la formaZ X Y
con una variable aleatoria término que tiene de cero expectativa, y utilizando los parámetros alfa , β ' , γ ' , y δ ' . A menudo vale la pena verificar si δ ′ se aproxima a β ′ γ ′ , porque una expresión algebraicamente equivalente del mismo modelo esε α , β′, γ′, δ′ δ′ β′γ′
(donde , etc.).β′= α β
Por lo tanto, si hay una razón para suponer , podemos absorberlo en el término de error ε . Esto no solo da una "interacción pura", lo hace sin un término constante. Esto a su vez sugiere tomar logaritmos. Cierta heterocedasticidad en los residuos, es decir, una tendencia a que los residuos asociados con valores mayores de Z sean mayores en valor absoluto que el promedio, también apuntaría en esta dirección. Entonces nos gustaría explorar una formulación alternativa( δ- βγ) ∼ 0 ε Z
con iid error aleatorio . Además, si esperamos que β X y γ Y sean grandes en comparación con 1 , en su lugar solo propondremos el modeloτ βX γY 1
Este nuevo modelo tiene un solo parámetro lugar de cuatro parámetros ( α , β ′ , etc.) sujetos a una relación cuadrática ( δ ′ = β ′ γ ′ ), una simplificación considerable.η α β′ δ′=β′γ′
No estoy diciendo que este sea un paso necesario o incluso el único, pero sugiero que este tipo de reordenamiento algebraico del modelo generalmente vale la pena considerar cuando las interacciones parecen ser significativas.
Algunas formas excelentes de explorar modelos con interacción, especialmente con solo dos y tres variables independientes, aparecen en los capítulos 10-13 de la EDA de Tukey .
fuente
Si bien a menudo se dice en los libros de texto que uno nunca debe incluir una interacción en un modelo sin los efectos principales correspondientes, ciertamente hay ejemplos en los que esto tendría mucho sentido. Te daré el ejemplo más simple que pueda imaginar.
Suponga que los sujetos asignados aleatoriamente a dos grupos se miden dos veces, una vez al inicio del estudio (es decir, justo después de la aleatorización) y una vez después del grupo T recibió algún tipo de tratamiento, mientras que el grupo C no. Luego, un modelo de medidas repetidas para estos datos incluiría un efecto principal para la ocasión de medición (una variable ficticia que es 0 para la línea de base y 1 para el seguimiento) y un término de interacción entre el ficticio del grupo (0 para C, 1 para T ) y el tiempo ficticio.
La intercepción del modelo luego estima el puntaje promedio de los sujetos al inicio del estudio (independientemente del grupo en el que se encuentren). El coeficiente para el simulado de la ocasión de medición indica el cambio en el grupo de control entre la línea de base y el seguimiento. Y el coeficiente para el término de interacción indica cuánto mayor / menor fue el cambio en el grupo de tratamiento en comparación con el grupo de control.
Aquí, no es necesario incluir el efecto principal para el grupo, porque al inicio, los grupos son equivalentes por definición debido a la aleatorización.
Por supuesto, se podría argumentar que el efecto principal para el grupo aún debe incluirse, de modo que, en caso de que falle la aleatorización, el análisis lo revelará. Sin embargo, eso es equivalente a probar las medias de referencia de los dos grupos entre sí. Y hay muchas personas que fruncen el ceño ante las pruebas de las diferencias iniciales en los estudios aleatorios (por supuesto, también hay muchas personas que lo encuentran útil, pero este es otro problema).
fuente
La razón para mantener los efectos principales en el modelo es la identificabilidad. Por lo tanto, si el propósito es la inferencia estadística sobre cada uno de los efectos, debe mantener los efectos principales en el modelo. Sin embargo, si su propósito de modelar es únicamente predecir nuevos valores, entonces es perfectamente legítimo incluir solo la interacción si eso mejora la precisión predictiva.
fuente
Esto está implícito en muchas de las respuestas que otros han dado, pero el punto simple es que los modelos con un término de producto pero sin el moderador y el predictor son simplemente modelos diferentes. Averigua qué significa cada uno dado el proceso que estás modelando y si un modelo sin moderador y predictor tiene más sentido dada tu teoría o hipótesis. La observación de que el término del producto es significativo, pero solo cuando el moderador y el predictor no están incluidos no le dice nada (excepto tal vez que está buscando "importancia") sin una explicación convincente de por qué tiene sentido dejarlos fuera. .
fuente
Podría decirse que depende de para qué esté usando su modelo. Pero nunca he visto una razón para no ejecutar y describir modelos con efectos principales, incluso en los casos en que la hipótesis se trata solo de la interacción.
fuente
Tomaré prestado un párrafo del libro Una introducción al análisis de supervivencia usando Stata por M.Cleves, R.Gutierrez, W.Gould, Y.Marchenko editado por Stata press para responder a su pregunta.
fuente
Tanto x como y se correlacionarán con xy (a menos que haya tomado una medida específica para evitar esto utilizando el centrado). Por lo tanto, si obtiene un efecto de interacción sustancial con su enfoque, probablemente equivaldrá a uno o más efectos principales disfrazados de interacción. Esto no va a producir resultados claros e interpretables. En cambio, lo deseable es ver cuánto puede explicar la interacción más allá de lo que hacen los efectos principales, al incluir x , y , y (preferiblemente en un paso posterior) xy .
En cuanto a la terminología: sí, β 0 se llama "constante". Por otro lado, "parcial" tiene significados específicos en la regresión, por lo que no usaría ese término para describir su estrategia aquí.
En este hilo se describen algunos ejemplos interesantes que surgirán una vez en una luna azul .
fuente
Sugeriría que es simplemente un caso especial de incertidumbre del modelo. Desde una perspectiva bayesiana, simplemente trata esto exactamente de la misma manera que trataría cualquier otro tipo de incertidumbre, ya sea:
fuente
Rara vez es una buena idea incluir un término de interacción sin los principales efectos involucrados en él. David Rindskopf de CCNY ha escrito algunos documentos sobre esos casos raros.
fuente
Existen varios procesos en la naturaleza que involucran solo un efecto de interacción y leyes que los describen. Por ejemplo, la ley de Ohm. En psicología, por ejemplo, tiene el modelo de rendimiento de Vroom (1964): Rendimiento = Habilidad x Motivación. Ahora, puede esperar encontrar un efecto de interacción significativo cuando esta ley es verdadera. Lamentablemente, este no es el caso. Podría terminar fácilmente encontrando dos efectos principales y un efecto de interacción insignificante (para una demostración y una explicación más detallada ver Landsheer, van den Wittenboer y Maassen (2006), Social Science Research 35, 274-294). El modelo lineal no es muy adecuado para detectar efectos de interacción; Ohm podría nunca haber encontrado su ley cuando había usado modelos lineales.
Como resultado, interpretar los efectos de interacción en modelos lineales es difícil. Si tiene una teoría que predice un efecto de interacción, debe incluirlo incluso cuando sea insignificante. Es posible que desee ignorar los efectos principales si su teoría los excluye, pero le resultará difícil, ya que los efectos principales significativos a menudo se encuentran en el caso de un verdadero mecanismo generador de datos que solo tiene un efecto multiplicativo.
Mi respuesta es: Sí, puede ser válido incluir una interacción bidireccional en un modelo sin incluir los efectos principales. Los modelos lineales son excelentes herramientas para aproximar los resultados de una gran variedad de mecanismos de generación de datos, pero sus fórmulas no pueden interpretarse fácilmente como una descripción válida del mecanismo de generación de datos.
fuente
Este es complicado y me pasó en mi último proyecto. Lo explicaría de esta manera: digamos que tenía variables A y B que salieron significativas de forma independiente y por un sentido comercial pensó que una interacción de A y B parece buena. Incluyó la interacción que resultó ser significativa, pero B perdió su importancia. Explicaría su modelo inicialmente mostrando dos resultados. Los resultados mostrarían que inicialmente B fue significativo, pero cuando se vio a la luz de A perdió su brillo. Entonces B es una buena variable, pero solo cuando se ve a la luz de varios niveles de A (si A es una variable categórica). Es como decir que Obama es un buen líder cuando se lo ve a la luz de su ejército SEAL. Entonces el sello Obama * será una variable significativa. Pero Obama, visto solo, podría no ser tan importante. (Sin ofender a Obama, solo un ejemplo).
fuente
F = m * a, la fuerza es igual a la masa por la aceleración.
No se representa como F = m + a + ma, o alguna otra combinación lineal de esos parámetros. De hecho, solo la interacción entre masa y aceleración tendría sentido físicamente.
fuente
Sí, puede ser válido e incluso necesario. Si, por ejemplo, en 2. incluiría un factor para el efecto principal (diferencia promedio de la condición azul frente a la roja), esto empeoraría el modelo.
Su hipótesis podría ser verdadera independientemente de que haya un efecto principal. Pero el modelo podría necesitarlo para describir mejor el proceso subyacente. Entonces sí, deberías probar con y sin.
Nota: Debe centrar el código para la variable independiente "continua" (medición en el ejemplo). De lo contrario, los coeficientes de interacción en el modelo no se distribuirán simétricamente (no hay coeficiente para la primera medición en el ejemplo).
fuente
Si las variables en cuestión son categóricas, incluir interacciones sin los efectos principales es solo una reparametrización del modelo, y la elección de la parametrización depende de lo que intente lograr con su modelo. La interacción de variables continuas con otras variables continuas o con variables categóricas es una historia completamente diferente. Ver: vea estas preguntas frecuentes del Instituto de Investigación y Educación Digital de la UCLA
fuente
Sí, esto puede ser válido, aunque es raro. Pero en este caso aún necesita modelar los efectos principales, que luego retrocederá.
De hecho, en algunos modelos, solo la interacción es interesante, como las pruebas de drogas / modelos clínicos. Esta es, por ejemplo, la base del modelo de Interacciones Psicofisiológicas Generalizadas (gPPI):
y = ax + bxh + ch
dóndex/y
están los vóxeles / regiones de interés yh
los diseños de bloques / eventos.En este modelo, ambos
a
yc
serán regresados, solob
se mantendrán para la inferencia (los coeficientes beta). De hecho, tantoa
yc
representan la actividad espuria en nuestro caso, y sólob
representa lo que no puede ser explicado por la actividad espuria, la interacción con la tarea.fuente
La respuesta corta: si incluye interacción en los efectos fijos, los efectos principales se incluyen automáticamente independientemente de si los incluye específicamente en su código . La única diferencia es su parametrización, es decir, qué significan los parámetros en su modelo (p. Ej., Si son grupos o son diferencias con respecto a los niveles de referencia).
Aclaración matemática: suponemos que el vector de respuesta . Si X A , X B y X A B }Y∼ N( ξ, σ2yonorte) XUNA Xsi XA B ξ∈ { XUNA, Xsi, XA B} ξ∈ { XA B} { XA B} = { XUNA, Xsi, XA B}
Acabo de ver que David Beede proporcionó una respuesta muy similar (disculpas), pero pensé que dejaría esto para aquellos que responden bien a una perspectiva de álgebra lineal.
fuente