¿Todos los términos de interacción necesitan sus términos individuales en el modelo de regresión?

68

En realidad estoy revisando un manuscrito donde los autores comparan modelos de regresión de 5-6 logit con AIC. Sin embargo, algunos de los modelos tienen términos de interacción sin incluir los términos covariables individuales. ¿Tiene sentido hacer esto?

Por ejemplo (no específico para los modelos logit):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

Siempre he tenido la impresión de que si tienes el término de interacción X1 * X2 también necesitas X1 + X2. Por lo tanto, los modelos 1 y 2 estarían bien, pero los modelos 3-5 serían problemáticos (incluso si el AIC es más bajo). ¿Es esto correcto? ¿Es una regla o más una guía? ¿Alguien tiene una buena referencia que explique el razonamiento detrás de esto? Solo quiero asegurarme de no comunicar mal nada importante en la revisión.

Gracias por cualquier pensamiento, Dan.

djhocking
fuente
8
+1, creo que esta es una muy buena pregunta. También puede consultar esta pregunta anterior que cubre gran parte del mismo territorio. Las respuestas allí son realmente excelentes también.
gung - Restablece a Monica
Muchas buenas respuestas ya. Hubo un documento de Rindskopf sobre algunos casos en los que no necesita los efectos principales. (También vea este )
Peter Flom - Restablezca a Monica
3
AFAIK: en R's lm (), :es para interacciones, como en A: B. Y *es tanto para los efectos principales como para las interacciones, entonces A * B = A + B + A: B. Entonces, si (!) Los autores del artículo siguen esta notación, ¿no creo que a ninguno de los modelos le falten los efectos principales?
Zhubarb
Además, la misma lógica que en las respuestas actuales se aplica a las interacciones de orden superior (por ejemplo, necesita todas las interacciones de 2 vías si incluye una de 3 vías)
Peter Flom - Restablecer a Monica

Respuestas:

38

La mayoría de las veces es una mala idea, la razón principal es que ya no hace que el modelo sea invariable a los cambios de ubicación. Por ejemplo, suponga que tiene un único resultado y dos predictores x i y z i y especifique el modelo:yixizi

yi=β0+β1Xyozyo+ε

Si tuviera que centrar los predictores por sus medios, convierte enXyozyo

(Xyo-X¯)(zyo-z¯)=Xyozyo-Xyoz¯-zyoX¯+X¯z¯

Entonces, puede ver que los efectos principales se han reintroducido en el modelo.

He dado un argumento heurístico aquí, pero esto presenta un problema práctico. Como se señaló en Faraway (2005) en la página 114, un cambio aditivo en la escala cambia la inferencia del modelo cuando los efectos principales quedan fuera del modelo, mientras que esto no sucede cuando se incluyen los términos de orden inferior. Normalmente no es deseable que cosas arbitrarias como un cambio de ubicación provoquen un cambio fundamental en la inferencia estadística (y, por lo tanto, en las conclusiones de su consulta), como puede suceder cuando se incluyen términos o interacciones polinómicas en un modelo sin los efectos de orden inferior.

Nota: Puede haber circunstancias especiales en las que solo desee incluir la interacción, si tiene algún significado sustantivo particular o si solo observa el producto y no las variables individuales x i , z i . Pero, en ese caso, también se puede pensar en el predictor a i = x i z i y proceder con el modeloXyozyoXyo,zyounayo=Xyozyo

yyo=α0 0+α1unayo+εyo

en lugar de pensar en como un término de interacción.unayo

Macro
fuente
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the modelEl cambio aditivo de predictores generalmente cambia t de sus efectos principales (términos de orden inferior) incluso en un modelo completo. Es el ajuste general (R ^ 2) el que se conserva (pero no se conserva bajo cambio aditivo en un modelo con algunos efectos principales descartados). ¿Es eso lo que querías decir?
ttnphns
Sí, así es @ttnphns, gracias por señalarlo, he modificado un poco mi respuesta para reflejar esto.
Macro
28

Todas las respuestas hasta ahora parecen perder un punto muy básico: la forma funcional que elija debe ser lo suficientemente flexible como para capturar las características que son científicamente relevantes. Los modelos 2-5 imponen coeficientes cero en algunos términos sin justificación científica. E incluso si está científicamente justificado, el Modelo 1 sigue siendo atractivo porque también podría probar los coeficientes cero en lugar de imponerlos.

La clave es entender qué significan las restricciones. La advertencia típica para evitar los Modelos 3-5 es porque en la mayoría de las aplicaciones los supuestos que imponen son científicamente inverosímiles. El modelo 3 supone que X2 solo influye en la pendiente dY / dX1 pero no en el nivel. El modelo 4 supone que X1 solo influye en la pendiente dY / dX2 pero no en el nivel. Y el Modelo 5 supone que ni X1 ni X2 afectan el nivel, sino solo dY / dX1 o dY / dX2. En la mayoría de las aplicaciones, estos supuestos no parecen razonables. El modelo 2 también impone un coeficiente cero pero aún tiene algún mérito. Ofrece la mejor aproximación lineal a los datos, que en muchos casos satisface el objetivo científico.

Tristan
fuente
55
(+1) Todo esto es cierto, pero el póster original parecía estar describiendo una situación en la que los autores intentaban hacer la selección del modelo, y algunos de sus modelos candidatos eran aquellos que no incluían interacciones, por lo que su motivación fue guiada por AIC en lugar de por algo sustantivo (que siempre es algo peligroso de hacer, pero aparentemente lo han hecho). Cuando estás guiado por algo sustantivo, entonces la estructura del modelo debe ser dictada por eso. Pero, cuando se guía por un criterio estadístico, omitir los efectos principales puede tener malas propiedades, como lo indiqué en mi respuesta.
Macro
16

X1X2podría ser [0, 0, 0, 1] o [1, -1, -1, 1], dependiendo del esquema de codificación utilizado. Creo que es posible tener una situación en la que solo la interacción es 'significativa' con un esquema de codificación, pero todos los términos son 'significativos' utilizando el otro esquema. Esto implica que se tomarían decisiones interpretativas significativas basadas en una decisión de codificación arbitraria que, de hecho, su software podría haber tomado para usted sin su conocimiento. Reconozco que este es un punto pequeño, pero es solo una razón más por la que generalmente no es una buena idea retener solo la interacción (y también no seleccionar un subconjunto de predictores basados ​​en valores p, por supuesto).

gung - Restablece a Monica
fuente
1
Las pruebas de significación para los efectos principales categóricos no son menos invariables. Un grupo puede ser significativamente diferente del grupo de referencia bajo la codificación del tratamiento, pero no del efecto de "gran media" bajo la codificación de contraste.
probabilidad es
10

Como está revisando un artículo, puede sugerir que los autores discutan el tema de la jerarquía de modelos y justifiquen su partida de ella.

Aquí hay algunas referencias:

  1. Nelder JA. La selección de términos en los modelos de superficie de respuesta: ¿qué tan fuerte es el principio de herencia débil? El estadístico estadounidense. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Consultado el 10 de junio de 2010.

  2. Peixoto JL. Selección de variables jerárquicas en modelos de regresión polinómica. El estadístico estadounidense. 1987; 41: 311–3. http://www.jstor.org/pss/2684752 . Consultado el 10 de junio de 2010.

  3. Peixoto JL. Una propiedad de modelos de regresión polinomiales bien formulados. El estadístico estadounidense. 1990; 44: 26-30. http://www.jstor.org/pss/2684952 . Consultado el 10 de junio de 2010.

Normalmente sigo la jerarquía, pero me alejo de ella en algunas situaciones. Por ejemplo, si está probando el desgaste de los neumáticos en comparación con el kilometraje a varias velocidades diferentes, su modelo podría verse así:

profundidad de la banda de rodadura = intercepción + kilometraje + kilometraje * velocidad

pero no tendría sentido físico incluir un efecto principal de la velocidad porque el neumático no sabe cuál será la velocidad a cero millas.

(Por otro lado, es posible que aún desee probar un efecto de velocidad porque podría indicar que los efectos de "robo" difieren a diferentes velocidades. Por otro lado, una forma aún mejor de manejar el robo sería obtenga datos en cero y con un kilometraje muy bajo y luego pruebe la no linealidad. Tenga en cuenta que eliminar el término de intercepción puede considerarse como un caso especial de violación de la jerarquía).

También reiteraré lo que alguien dijo anteriormente porque es muy importante: los autores deben asegurarse de saber si su software está centrando los datos. El modelo de neumático anterior no tiene sentido físico si el software reemplaza el kilometraje por (kilometraje - promedio del kilometraje).

El mismo tipo de cosas son relevantes en los estudios de estabilidad farmacéutica (mencionados tangencialmente en "Modelos de estabilidad para almacenamiento secuencial", Emil M. Friedman y Sam C. Shum, AAPS PharmSciTech, Vol. 12, No. 1, marzo de 2011, DOI: 10.1208 / s12249-010-9558-x).

Emil Friedman
fuente
1
gracias, esta es una gran respuesta y me ayudará a explicársela a personas que no son estadísticamente inteligentes.
djhocking
1
+1 Desearía que fuera posible combinar respuestas en SO. Esto con la respuesta aceptada arriba forma la respuesta perfecta.
Zhubarb
9

He tenido un caso real que ilustra esto. En los datos, una de las variables representadas groupcon 0-control y 1-tratamiento. El otro predictor representado time periodcon 0 antes del tratamiento y 1 después del tratamiento. La interacción fue el principal parámetro de interés que midió el efecto del tratamiento, la diferencia después del tratamiento en el grupo de tratamiento por encima de cualquier efecto del tiempo medido en el grupo de control. El efecto principal degroupmidió la diferencia en los 2 grupos antes de cualquier tratamiento, por lo que podría ser fácilmente 0 (en un experimento aleatorio debería ser 0, este no lo fue). El segundo efecto principal mide la diferencia entre los períodos de tiempo anterior y posterior en el grupo de control donde no hubo tratamiento, por lo que esto también tiene sentido que podría ser 0 mientras el término de interacción no es cero. Por supuesto, esto depende de cómo se codificaron las cosas y una codificación diferente cambiaría los significados y si la interacción tiene sentido o no sin los efectos principales. Por lo tanto, solo tiene sentido adaptar la interacción sin los efectos principales en casos específicos.

Greg Snow
fuente
Entonces, ¿quiere decir que todo depende de los objetivos de su estudio O en función de sus parámetros?
Ben
1
@Ben, puede depender tanto de cómo parametrizas tus variables (en mi ejemplo, cambiar el 0/1 a 1/0 para cualquiera de las variables cambiaría la interpretación) como qué preguntas estás tratando de responder y qué suposiciones estás dispuesto a hacer .
Greg Snow
Y=si0 0+si1X+si2Z+si3XZ2008+ymiunarretumetrometroyomis
X y Z son variables continuas, Z es la calificación de regulación. el año 2008 se puntúa 1 y 0 para otros años. Es como si solo tomase las observaciones del año 2008 sin interacción. Leí sobre el principio de herencia débil y fuerte, pero no lo entendí claramente
Ben
1
@Ben, ciertamente es posible ajustar el modelo anterior que básicamente dice que cree que hay (o puede haber) una interacción en 2008, pero no en ningún otro año. Si tiene una justificación para esto, entonces creo que el modelo está bien. Pero es una suposición bastante inusual que probablemente necesitará justificar esto ante cualquier audiencia.
Greg Snow
si1X
si1X
7

Estoy de acuerdo con Peter Creo que la regla es el folklore. ¿Por qué podríamos concebir una situación en la que dos variables afectarían al modelo solo debido a una interacción? Una analogía en química es que dos productos químicos son totalmente inertes por sí mismos, pero causan una explosión cuando se mezclan. Las sutilezas matemáticas / estadísticas como la invariancia no tienen nada que ver con un problema real con datos reales. Solo creo que cuando hay muchas variables a considerar, hay que realizar una gran cantidad de pruebas si vas a ver todos los efectos principales y la mayoría, si no todas, las interacciones de primer orden. También casi nunca miramos las interacciones de segundo orden, incluso en pequeños experimentos con solo un puñado de variables. La idea es que cuanto mayor sea el orden de interacción, menos probable es que haya un efecto real. Entonces no No mire las interacciones de primer o segundo orden si el efecto principal no está allí. Una buena regla quizás, pero seguirla religiosamente significa pasar por alto las excepciones y su problema puede ser una excepción.

Michael Chernick
fuente
8
pags
1
Probablemente me equivoqué al decir que la invariancia no tiene relevancia en el mundo real. Mi objetivo era que algunos resultados matemáticos pueden no ser relevantes en un problema práctico particular. Como ejemplo, las estimaciones de mínimos cuadrados son la máxima probabilidad bajo supuestos de error normales y, según el teorema de Gauss Markov, son la varianza mínima imparcial en condiciones más débiles, pero no lo usaría cuando hay valores atípicos en los datos. Del mismo modo, ¿debería descartar una propiedad como la invariancia, incluida una interacción cuando tiene sentido decir médicamente que ocurriría sin los efectos principales?
Michael Chernick
6

[tratando de responder una parte de la pregunta original que parece quedar sin cubrir en la mayoría de las respuestas: "¿se debe confiar en AIC, como criterio de selección de modelo?"]

AIC debe usarse más como una guía, que como una regla que debe tomarse como evangelio.

La efectividad de AIC (o BIC o cualquier criterio "simple" similar para la selección del modelo) depende en gran medida del algoritmo de aprendizaje y del problema.

Piénselo de esta manera: el objetivo del término complejidad (número de factores) en la fórmula AIC es simple: evitar seleccionar modelos que se ajusten demasiado. Pero la simplicidad de AIC a menudo no logra capturar la complejidad real del problema en sí. Es por eso que existen otras técnicas prácticas para evitar el sobreajuste: por ejemplo, validación cruzada o agregar un término de regularización.

Cuando uso el SGD en línea (descenso de gradiente estocástico) para hacer una regresión lineal en un conjunto de datos con una gran cantidad de entradas, encuentro que el AIC es un terrible predictor de la calidad del modelo porque penaliza excesivamente los modelos complejos con una gran cantidad de términos. Hay muchas situaciones de la vida real en las que cada término tiene un efecto minúsculo, pero en conjunto, un gran número de ellas proporciona una fuerte evidencia estadística de un resultado. Los criterios de selección de modelos AIC y BIC rechazarían estos modelos y preferirían los más simples, aunque los más complejos sean superiores.

Al final, lo que cuenta es el error de generalización (aproximadamente: fuera del rendimiento de la muestra). AIC puede darle una pista de la calidad del modelo en algunas situaciones relativamente simples. Solo tenga cuidado y recuerde que la vida real suele ser más compleja que una simple fórmula.

arielf
fuente