Incluyendo la interacción pero no los efectos principales en un modelo

85

¿Es válido incluir una interacción bidireccional en un modelo sin incluir los efectos principales? ¿Qué pasa si su hipótesis es solo acerca de la interacción, todavía necesita incluir los efectos principales?

Cañada
fuente
3
Mi filosofía es ejecutar muchos modelos, verificar sus predicciones, comparar, explicar, ejecutar más modelos.
Michael Bishop
11
Si las interacciones solo son significativas cuando los efectos principales están en el modelo, puede ser que los efectos principales sean significativos y las interacciones no. Considere un efecto principal altamente significativo con varianza del orden de 100 y otro efecto principal insignificante para el cual todos los valores son aproximadamente uno con varianza muy baja. Su interacción no es significativa, pero el efecto de interacción parecerá ser significativo si los efectos principales se eliminan del modelo.
Thomas Levine
44
@Thomas debería leer su primera línea "si las interacciones solo son significativas cuando los efectos principales NO están en el modelo, ..."?
Glen
2
Oh si, deberia!
Thomas Levine

Respuestas:

55

En mi experiencia, no solo es necesario tener todos los efectos de orden inferior en el modelo cuando están conectados a efectos de orden superior, sino que también es importante modelar adecuadamente (por ejemplo, permitir que sean no lineales) los efectos principales que aparentemente no están relacionados con Los factores en las interacciones de interés. Esto se debe a que las interacciones entre y x 2 pueden ser sustitutos de los efectos principales de x 3 y x 4 . Las interacciones a veces parecen ser necesarias porque son colineales con variables omitidas o términos no lineales omitidos (por ejemplo, spline).X1X2X3X4 4

Frank Harrell
fuente
1
Esto significa que debemos comenzar a eliminar los términos de y ~ x1 * x2 * x3 * x4, comenzando a eliminar los términos de orden superior, es decir, el método de eliminación normal, ¿verdad?
Curioso
99
No se recomienda la eliminación de términos a menos que pueda probar clases enteras de términos como un "fragmento". Por ejemplo, puede ser razonable mantener o eliminar todos los términos de interacción, o mantener o eliminar todas las interacciones de tercer o cuarto orden.
Frank Harrell
¿Qué hay de malo en eliminar solo algunas de las interacciones en un orden particular?
user1205901
3
Si tiene un orden completamente preespecificado que no se determinó al observar los datos, entonces puede hacerlo. En general, tendrá problemas de co-linealidad y multiplicidad al tomar decisiones múltiples utilizando múltiples valores de P.
Frank Harrell
2
Siento que esta respuesta no está clara, y solo responde parcialmente la pregunta. De hecho, esta respuesta indica que es necesario modelar el efecto principal, pero no responde si es válido retroceder para enfocarse solo en la interacción, que es y se usa en algunos modelos como el gPPI (vea mi respuesta abajo).
Gaborous
37

Usted pregunta si alguna vez es válido. Permítanme proporcionar un ejemplo común, cuya aclaración puede sugerir enfoques analíticos adicionales para usted.

El ejemplo más simple de una interacción es un modelo con una variable dependiente y dos variables independientes X , Y en la formaZXY

Z=α+βX+γY+δXY+ε,

con una variable aleatoria término que tiene de cero expectativa, y utilizando los parámetros alfa , β ' , γ ' , y δ ' . A menudo vale la pena verificar si δ ′ se aproxima a β γ , porque una expresión algebraicamente equivalente del mismo modelo esεα,β,γ,δδβγ

Z=α(1+βX+γY+δXY)+ε

=α(1+βX)(1+γY)+α(δβγ)XY+ε

(donde , etc.).β=αβ

Por lo tanto, si hay una razón para suponer , podemos absorberlo en el término de error ε . Esto no solo da una "interacción pura", lo hace sin un término constante. Esto a su vez sugiere tomar logaritmos. Cierta heterocedasticidad en los residuos, es decir, una tendencia a que los residuos asociados con valores mayores de Z sean mayores en valor absoluto que el promedio, también apuntaría en esta dirección. Entonces nos gustaría explorar una formulación alternativa(δ-βγ)0 0εZ

log(Z)=log(α)+log(1+βX)+log(1+γY)+τ

con iid error aleatorio . Además, si esperamos que β X y γ Y sean grandes en comparación con 1 , en su lugar solo propondremos el modeloτβXγY1

log(Z)=(log(α)+log(β)+log(γ))+log(X)+log(Y)+τ

=η+log(X)+log(Y)+τ.

Este nuevo modelo tiene un solo parámetro lugar de cuatro parámetros ( α , β , etc.) sujetos a una relación cuadrática ( δ = β γ ), una simplificación considerable.ηαβδ=βγ

No estoy diciendo que este sea un paso necesario o incluso el único, pero sugiero que este tipo de reordenamiento algebraico del modelo generalmente vale la pena considerar cuando las interacciones parecen ser significativas.

Algunas formas excelentes de explorar modelos con interacción, especialmente con solo dos y tres variables independientes, aparecen en los capítulos 10-13 de la EDA de Tukey .

whuber
fuente
¿Puede proporcionar un ejemplo de cuándo podría asumir que se aproximaría a cero? Es difícil para mí pensar en esos términos en relación con los términos originales y lo que significarían. δβγ
djhocking
@djhocking Cualquier situación en la que la formulación alternativa sea un buen modelo implicará necesariamente en el primer modelo. Un caso especial es el modelo final, que es una relación lineal simple entre log ( Z ) y los registros de X e Y , lo que equivale a una relación multiplicativa Z X Y en la escala original. Tales relaciones abundan en la naturaleza - simplemente dice Z es directamente y por separado proporcional tanto a X y Y .α(δβγ)0Iniciar sesión(Z)XYZXYZXY
whuber
30

Si bien a menudo se dice en los libros de texto que uno nunca debe incluir una interacción en un modelo sin los efectos principales correspondientes, ciertamente hay ejemplos en los que esto tendría mucho sentido. Te daré el ejemplo más simple que pueda imaginar.

Suponga que los sujetos asignados aleatoriamente a dos grupos se miden dos veces, una vez al inicio del estudio (es decir, justo después de la aleatorización) y una vez después del grupo T recibió algún tipo de tratamiento, mientras que el grupo C no. Luego, un modelo de medidas repetidas para estos datos incluiría un efecto principal para la ocasión de medición (una variable ficticia que es 0 para la línea de base y 1 para el seguimiento) y un término de interacción entre el ficticio del grupo (0 para C, 1 para T ) y el tiempo ficticio.

La intercepción del modelo luego estima el puntaje promedio de los sujetos al inicio del estudio (independientemente del grupo en el que se encuentren). El coeficiente para el simulado de la ocasión de medición indica el cambio en el grupo de control entre la línea de base y el seguimiento. Y el coeficiente para el término de interacción indica cuánto mayor / menor fue el cambio en el grupo de tratamiento en comparación con el grupo de control.

Aquí, no es necesario incluir el efecto principal para el grupo, porque al inicio, los grupos son equivalentes por definición debido a la aleatorización.

Por supuesto, se podría argumentar que el efecto principal para el grupo aún debe incluirse, de modo que, en caso de que falle la aleatorización, el análisis lo revelará. Sin embargo, eso es equivalente a probar las medias de referencia de los dos grupos entre sí. Y hay muchas personas que fruncen el ceño ante las pruebas de las diferencias iniciales en los estudios aleatorios (por supuesto, también hay muchas personas que lo encuentran útil, pero este es otro problema).

Wolfgang
fuente
44
Los problemas surgen cuando la medición del tiempo cero (línea de base) se usa como una primera variable de respuesta. La línea de base a menudo se usa como criterio de entrada para el estudio. Por ejemplo, un estudio podría inscribir pacientes con presión arterial sistólica (pb)> 140, luego aleatorizar a tratamientos de 2 pb y seguir los pb. Inicialmente, bp tiene una distribución truncada y las mediciones posteriores serán más simétricas. Es complicado modelar 2 formas de distribución en el mismo modelo. Hay muchas más razones para tratar la línea de base como una covariable de línea de base.
Frank Harrell
3
Ese es un buen punto, pero estudios recientes sugieren que esto no es un problema. De hecho, parece que hay más desventajas al usar los puntajes de referencia como una covariable. Ver: Liu, GF, et al. (2009) ¿Debería la línea de base ser una variable covariable o dependiente en los análisis de cambio desde la línea de base en los ensayos clínicos? Estadísticas en medicina, 28, 2509-2530.
Wolfgang
3
He leído ese papel. No es convincente, y Liu no ha estudiado una variedad de los tipos de situaciones de ensayos clínicos que describí. Hay más argumentos en biostat.mc.vanderbilt.edu/wiki/pub/Main/RmS/course2.pdf en el capítulo sobre análisis de datos en serie (longitudinales).
Frank Harrell
1
Gracias por el enlace. Supongo que se refiere a la discusión en 8.2.3. Esos son algunos puntos interesantes, pero no creo que esto dé una respuesta definitiva. Estoy seguro de que el artículo de Liu et al. tampoco es la respuesta definitiva, pero sugiere, por ejemplo, que la no normalidad de los valores de referencia no es un problema crucial. Tal vez esto sea algo para un tema de discusión separado, ya que no se relaciona directamente con la pregunta del OP.
Wolfgang
2
Sí, depende de la cantidad de no normalidad. ¿Por qué depender de la buena fortuna al formular un modelo? También hay muchas razones puramente filosóficas para tratar las mediciones de tiempo cero como mediciones de referencia (ver citas de Senn y Rochon en mis notas).
Frank Harrell
19

La razón para mantener los efectos principales en el modelo es la identificabilidad. Por lo tanto, si el propósito es la inferencia estadística sobre cada uno de los efectos, debe mantener los efectos principales en el modelo. Sin embargo, si su propósito de modelar es únicamente predecir nuevos valores, entonces es perfectamente legítimo incluir solo la interacción si eso mejora la precisión predictiva.

Galit Shmueli
fuente
55
¿Puede por favor ser un poco más explícito sobre el problema de identificabilidad?
ocram
66
No creo que un modelo que omite los efectos principales no esté necesariamente identificado. Quizás te refieres a "interpretabilidad" en lugar de "identificabilidad" (que es un término técnico con una definición precisa)
JMS
66
@JMS: Sí, mata la interpretabilidad. Sin embargo, el término "identificabilidad" es utilizado de manera diferente por los estadísticos y por los científicos sociales. Me refería a esto último, donde (hablando en términos generales) desea identificar cada parámetro estadístico con una construcción particular. Al soltar el efecto principal, ya no puede hacer coincidir la construcción con el parámetro.
Galit Shmueli
13

Esto está implícito en muchas de las respuestas que otros han dado, pero el punto simple es que los modelos con un término de producto pero sin el moderador y el predictor son simplemente modelos diferentes. Averigua qué significa cada uno dado el proceso que estás modelando y si un modelo sin moderador y predictor tiene más sentido dada tu teoría o hipótesis. La observación de que el término del producto es significativo, pero solo cuando el moderador y el predictor no están incluidos no le dice nada (excepto tal vez que está buscando "importancia") sin una explicación convincente de por qué tiene sentido dejarlos fuera. .

dmk38
fuente
Vine aquí para investigar la interpretación de los efectos principales en presencia de un término de interacción significativo y esta respuesta realmente ayudó mucho. ¡Gracias!
Patrick Williams
9

Podría decirse que depende de para qué esté usando su modelo. Pero nunca he visto una razón para no ejecutar y describir modelos con efectos principales, incluso en los casos en que la hipótesis se trata solo de la interacción.

Michael Bishop
fuente
¿Qué sucede si la interacción solo es significativa cuando los efectos principales no están en el modelo?
Glen
3
@Glen: hay muchas cosas en las que pensar además de la significación estadística. Mira esto . Es mejor examinar el ajuste general de su modelo (grafique sus residuos contra sus predicciones para cada modelo que ajuste), su teoría y sus motivaciones para modelar.
Michael Bishop
7

Tomaré prestado un párrafo del libro Una introducción al análisis de supervivencia usando Stata por M.Cleves, R.Gutierrez, W.Gould, Y.Marchenko editado por Stata press para responder a su pregunta.

Es común leer que los efectos de interacción deben incluirse en el modelo solo cuando también se incluyen los efectos principales correspondientes, pero no hay nada de malo en incluir los efectos de interacción por sí mismos. [...] El objetivo de un investigador es parametrizar lo que es razonablemente cierto para los datos considerando el problema en cuestión y no simplemente siguiendo una receta.

andrea
fuente
3
Absolutamente terrible consejo.
Frank Harrell
3
@ Frank, ¿te importaría ampliar tu comentario? A primera vista, "parametrizar lo que es razonablemente cierto para los datos" tiene mucho sentido.
whuber
66
Ver stats.stackexchange.com/questions/11009/… . Los datos son incapaces de decirle qué es verdad, y este enfoque depende en gran medida del origen de la medición para las variables que se multiplican. Evaluar los efectos de la interacción aislada de la temperatura en Fahrenheit dará una imagen diferente de si se usa Celsius.
Frank Harrell
@ Frank: Gracias, lo encontré :-). Ahora es parte de este hilo.
whuber
7

Tanto x como y se correlacionarán con xy (a menos que haya tomado una medida específica para evitar esto utilizando el centrado). Por lo tanto, si obtiene un efecto de interacción sustancial con su enfoque, probablemente equivaldrá a uno o más efectos principales disfrazados de interacción. Esto no va a producir resultados claros e interpretables. En cambio, lo deseable es ver cuánto puede explicar la interacción más allá de lo que hacen los efectos principales, al incluir x , y , y (preferiblemente en un paso posterior) xy .

En cuanto a la terminología: sí, β 0 se llama "constante". Por otro lado, "parcial" tiene significados específicos en la regresión, por lo que no usaría ese término para describir su estrategia aquí.

En este hilo se describen algunos ejemplos interesantes que surgirán una vez en una luna azul .

rolando2
fuente
7

Sugeriría que es simplemente un caso especial de incertidumbre del modelo. Desde una perspectiva bayesiana, simplemente trata esto exactamente de la misma manera que trataría cualquier otro tipo de incertidumbre, ya sea:

  1. Calcular su probabilidad, si es el objeto de interés
  2. Integrarlo o promediarlo, si no es de interés, pero aún puede afectar sus conclusiones

Hint:The interaction between A and B is significant
DI
P(Hint|DI)=P(Hint|I)P(D|HintI)P(D|I)
P(D|HintI)
P(D|HintI)=m=1NMP(DMm|HintI)=m=1NMP(Mm|HintI)P(D|MmHintI)
MmNM
P(Hint|DI)=P(Hint|I)P(D|I)m=1NMP(Mm|HintI)P(D|MmHintI)
=1P(D|I)m=1NMP(DMm|I)P(MmHintD|I)P(DMm|I)=m=1NMP(Mm|DI)P(Hint|DMmI)

P(Hint|DMmI)P(Mm|DI)1P(Hint|DMjI)P(Hint|DMkI)

probabilidadislogica
fuente
5

Rara vez es una buena idea incluir un término de interacción sin los principales efectos involucrados en él. David Rindskopf de CCNY ha escrito algunos documentos sobre esos casos raros.

Peter Flom - Restablece a Monica
fuente
5

Existen varios procesos en la naturaleza que involucran solo un efecto de interacción y leyes que los describen. Por ejemplo, la ley de Ohm. En psicología, por ejemplo, tiene el modelo de rendimiento de Vroom (1964): Rendimiento = Habilidad x Motivación. Ahora, puede esperar encontrar un efecto de interacción significativo cuando esta ley es verdadera. Lamentablemente, este no es el caso. Podría terminar fácilmente encontrando dos efectos principales y un efecto de interacción insignificante (para una demostración y una explicación más detallada ver Landsheer, van den Wittenboer y Maassen (2006), Social Science Research 35, 274-294). El modelo lineal no es muy adecuado para detectar efectos de interacción; Ohm podría nunca haber encontrado su ley cuando había usado modelos lineales.

Como resultado, interpretar los efectos de interacción en modelos lineales es difícil. Si tiene una teoría que predice un efecto de interacción, debe incluirlo incluso cuando sea insignificante. Es posible que desee ignorar los efectos principales si su teoría los excluye, pero le resultará difícil, ya que los efectos principales significativos a menudo se encuentran en el caso de un verdadero mecanismo generador de datos que solo tiene un efecto multiplicativo.

Mi respuesta es: Sí, puede ser válido incluir una interacción bidireccional en un modelo sin incluir los efectos principales. Los modelos lineales son excelentes herramientas para aproximar los resultados de una gran variedad de mecanismos de generación de datos, pero sus fórmulas no pueden interpretarse fácilmente como una descripción válida del mecanismo de generación de datos.

Hans Landsheer
fuente
4

Este es complicado y me pasó en mi último proyecto. Lo explicaría de esta manera: digamos que tenía variables A y B que salieron significativas de forma independiente y por un sentido comercial pensó que una interacción de A y B parece buena. Incluyó la interacción que resultó ser significativa, pero B perdió su importancia. Explicaría su modelo inicialmente mostrando dos resultados. Los resultados mostrarían que inicialmente B fue significativo, pero cuando se vio a la luz de A perdió su brillo. Entonces B es una buena variable, pero solo cuando se ve a la luz de varios niveles de A (si A es una variable categórica). Es como decir que Obama es un buen líder cuando se lo ve a la luz de su ejército SEAL. Entonces el sello Obama * será una variable significativa. Pero Obama, visto solo, podría no ser tan importante. (Sin ofender a Obama, solo un ejemplo).

ayush biyani
fuente
1
Aquí es todo lo contrario. La interacción (de interés) solo es significativa cuando los efectos principales no están en el modelo.
Glen
3

F = m * a, la fuerza es igual a la masa por la aceleración.

No se representa como F = m + a + ma, o alguna otra combinación lineal de esos parámetros. De hecho, solo la interacción entre masa y aceleración tendría sentido físicamente.

nick michalak
fuente
2
Lo que se aplica a una ecuación física incontrovertible que no tiene espacio para la variabilidad no se aplica necesariamente o no es necesariamente verdadera o precisa o productiva cuando se modelan datos caracterizados por la variabilidad.
rolando2
2

Interacción con y sin efecto principal.  El azul es una condición.  Rojo otro.  Sus respectivos efectos se prueban en tres mediciones consecutivas.

¿Es válido incluir una interacción bidireccional sin efecto principal?

Sí, puede ser válido e incluso necesario. Si, por ejemplo, en 2. incluiría un factor para el efecto principal (diferencia promedio de la condición azul frente a la roja), esto empeoraría el modelo.

¿Qué pasa si su hipótesis es solo acerca de la interacción, todavía necesita incluir los efectos principales?

Su hipótesis podría ser verdadera independientemente de que haya un efecto principal. Pero el modelo podría necesitarlo para describir mejor el proceso subyacente. Entonces sí, deberías probar con y sin.

Nota: Debe centrar el código para la variable independiente "continua" (medición en el ejemplo). De lo contrario, los coeficientes de interacción en el modelo no se distribuirán simétricamente (no hay coeficiente para la primera medición en el ejemplo).

Sol Hator
fuente
1

Sí, esto puede ser válido, aunque es raro. Pero en este caso aún necesita modelar los efectos principales, que luego retrocederá.

De hecho, en algunos modelos, solo la interacción es interesante, como las pruebas de drogas / modelos clínicos. Esta es, por ejemplo, la base del modelo de Interacciones Psicofisiológicas Generalizadas (gPPI): y = ax + bxh + chdónde x/yestán los vóxeles / regiones de interés y hlos diseños de bloques / eventos.

En este modelo, ambos ay cserán regresados, solo bse mantendrán para la inferencia (los coeficientes beta). De hecho, tanto ay crepresentan la actividad espuria en nuestro caso, y sólo brepresenta lo que no puede ser explicado por la actividad espuria, la interacción con la tarea.

gaborous
fuente
1

La respuesta corta: si incluye interacción en los efectos fijos, los efectos principales se incluyen automáticamente independientemente de si los incluye específicamente en su código . La única diferencia es su parametrización, es decir, qué significan los parámetros en su modelo (p. Ej., Si son grupos o son diferencias con respecto a los niveles de referencia).

UNAsiUNA+si+UNAsiUNAsi son factores (categóricos).

Aclaración matemática: suponemos que el vector de respuesta . Si X A , X B y X A B }Ynorte(ξ,σ2yonorte)XUNAXsiXUNAsiξ{XUNA,Xsi,XUNAsi}ξ{XUNAsi}{XUNAsi}={XUNA,Xsi,XUNAsi}

Acabo de ver que David Beede proporcionó una respuesta muy similar (disculpas), pero pensé que dejaría esto para aquellos que responden bien a una perspectiva de álgebra lineal.

Ketil BT
fuente