En realidad estoy revisando un manuscrito donde los autores comparan modelos de regresión de 5-6 logit con AIC. Sin embargo, algunos de los modelos tienen términos de interacción sin incluir los términos covariables individuales. ¿Tiene sentido hacer esto?
Por ejemplo (no específico para los modelos logit):
M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)
Siempre he tenido la impresión de que si tienes el término de interacción X1 * X2 también necesitas X1 + X2. Por lo tanto, los modelos 1 y 2 estarían bien, pero los modelos 3-5 serían problemáticos (incluso si el AIC es más bajo). ¿Es esto correcto? ¿Es una regla o más una guía? ¿Alguien tiene una buena referencia que explique el razonamiento detrás de esto? Solo quiero asegurarme de no comunicar mal nada importante en la revisión.
Gracias por cualquier pensamiento, Dan.
fuente
:
es para interacciones, como en A: B. Y*
es tanto para los efectos principales como para las interacciones, entonces A * B = A + B + A: B. Entonces, si (!) Los autores del artículo siguen esta notación, ¿no creo que a ninguno de los modelos le falten los efectos principales?Respuestas:
La mayoría de las veces es una mala idea, la razón principal es que ya no hace que el modelo sea invariable a los cambios de ubicación. Por ejemplo, suponga que tiene un único resultado y dos predictores x i y z i y especifique el modelo:yi xi zi
Si tuviera que centrar los predictores por sus medios, convierte enXyozyo
Entonces, puede ver que los efectos principales se han reintroducido en el modelo.
He dado un argumento heurístico aquí, pero esto presenta un problema práctico. Como se señaló en Faraway (2005) en la página 114, un cambio aditivo en la escala cambia la inferencia del modelo cuando los efectos principales quedan fuera del modelo, mientras que esto no sucede cuando se incluyen los términos de orden inferior. Normalmente no es deseable que cosas arbitrarias como un cambio de ubicación provoquen un cambio fundamental en la inferencia estadística (y, por lo tanto, en las conclusiones de su consulta), como puede suceder cuando se incluyen términos o interacciones polinómicas en un modelo sin los efectos de orden inferior.
Nota: Puede haber circunstancias especiales en las que solo desee incluir la interacción, si tiene algún significado sustantivo particular o si solo observa el producto y no las variables individuales x i , z i . Pero, en ese caso, también se puede pensar en el predictor a i = x i z i y proceder con el modeloXyozyo Xyo, zyo unayo= xyozyo
en lugar de pensar en como un término de interacción.unayo
fuente
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the model
El cambio aditivo de predictores generalmente cambia t de sus efectos principales (términos de orden inferior) incluso en un modelo completo. Es el ajuste general (R ^ 2) el que se conserva (pero no se conserva bajo cambio aditivo en un modelo con algunos efectos principales descartados). ¿Es eso lo que querías decir?Todas las respuestas hasta ahora parecen perder un punto muy básico: la forma funcional que elija debe ser lo suficientemente flexible como para capturar las características que son científicamente relevantes. Los modelos 2-5 imponen coeficientes cero en algunos términos sin justificación científica. E incluso si está científicamente justificado, el Modelo 1 sigue siendo atractivo porque también podría probar los coeficientes cero en lugar de imponerlos.
La clave es entender qué significan las restricciones. La advertencia típica para evitar los Modelos 3-5 es porque en la mayoría de las aplicaciones los supuestos que imponen son científicamente inverosímiles. El modelo 3 supone que X2 solo influye en la pendiente dY / dX1 pero no en el nivel. El modelo 4 supone que X1 solo influye en la pendiente dY / dX2 pero no en el nivel. Y el Modelo 5 supone que ni X1 ni X2 afectan el nivel, sino solo dY / dX1 o dY / dX2. En la mayoría de las aplicaciones, estos supuestos no parecen razonables. El modelo 2 también impone un coeficiente cero pero aún tiene algún mérito. Ofrece la mejor aproximación lineal a los datos, que en muchos casos satisface el objetivo científico.
fuente
fuente
Como está revisando un artículo, puede sugerir que los autores discutan el tema de la jerarquía de modelos y justifiquen su partida de ella.
Aquí hay algunas referencias:
Nelder JA. La selección de términos en los modelos de superficie de respuesta: ¿qué tan fuerte es el principio de herencia débil? El estadístico estadounidense. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Consultado el 10 de junio de 2010.
Peixoto JL. Selección de variables jerárquicas en modelos de regresión polinómica. El estadístico estadounidense. 1987; 41: 311–3. http://www.jstor.org/pss/2684752 . Consultado el 10 de junio de 2010.
Peixoto JL. Una propiedad de modelos de regresión polinomiales bien formulados. El estadístico estadounidense. 1990; 44: 26-30. http://www.jstor.org/pss/2684952 . Consultado el 10 de junio de 2010.
Normalmente sigo la jerarquía, pero me alejo de ella en algunas situaciones. Por ejemplo, si está probando el desgaste de los neumáticos en comparación con el kilometraje a varias velocidades diferentes, su modelo podría verse así:
profundidad de la banda de rodadura = intercepción + kilometraje + kilometraje * velocidad
pero no tendría sentido físico incluir un efecto principal de la velocidad porque el neumático no sabe cuál será la velocidad a cero millas.
(Por otro lado, es posible que aún desee probar un efecto de velocidad porque podría indicar que los efectos de "robo" difieren a diferentes velocidades. Por otro lado, una forma aún mejor de manejar el robo sería obtenga datos en cero y con un kilometraje muy bajo y luego pruebe la no linealidad. Tenga en cuenta que eliminar el término de intercepción puede considerarse como un caso especial de violación de la jerarquía).
También reiteraré lo que alguien dijo anteriormente porque es muy importante: los autores deben asegurarse de saber si su software está centrando los datos. El modelo de neumático anterior no tiene sentido físico si el software reemplaza el kilometraje por (kilometraje - promedio del kilometraje).
El mismo tipo de cosas son relevantes en los estudios de estabilidad farmacéutica (mencionados tangencialmente en "Modelos de estabilidad para almacenamiento secuencial", Emil M. Friedman y Sam C. Shum, AAPS PharmSciTech, Vol. 12, No. 1, marzo de 2011, DOI: 10.1208 / s12249-010-9558-x).
fuente
He tenido un caso real que ilustra esto. En los datos, una de las variables representadas
group
con 0-control y 1-tratamiento. El otro predictor representadotime period
con 0 antes del tratamiento y 1 después del tratamiento. La interacción fue el principal parámetro de interés que midió el efecto del tratamiento, la diferencia después del tratamiento en el grupo de tratamiento por encima de cualquier efecto del tiempo medido en el grupo de control. El efecto principal degroup
midió la diferencia en los 2 grupos antes de cualquier tratamiento, por lo que podría ser fácilmente 0 (en un experimento aleatorio debería ser 0, este no lo fue). El segundo efecto principal mide la diferencia entre los períodos de tiempo anterior y posterior en el grupo de control donde no hubo tratamiento, por lo que esto también tiene sentido que podría ser 0 mientras el término de interacción no es cero. Por supuesto, esto depende de cómo se codificaron las cosas y una codificación diferente cambiaría los significados y si la interacción tiene sentido o no sin los efectos principales. Por lo tanto, solo tiene sentido adaptar la interacción sin los efectos principales en casos específicos.fuente
Estoy de acuerdo con Peter Creo que la regla es el folklore. ¿Por qué podríamos concebir una situación en la que dos variables afectarían al modelo solo debido a una interacción? Una analogía en química es que dos productos químicos son totalmente inertes por sí mismos, pero causan una explosión cuando se mezclan. Las sutilezas matemáticas / estadísticas como la invariancia no tienen nada que ver con un problema real con datos reales. Solo creo que cuando hay muchas variables a considerar, hay que realizar una gran cantidad de pruebas si vas a ver todos los efectos principales y la mayoría, si no todas, las interacciones de primer orden. También casi nunca miramos las interacciones de segundo orden, incluso en pequeños experimentos con solo un puñado de variables. La idea es que cuanto mayor sea el orden de interacción, menos probable es que haya un efecto real. Entonces no No mire las interacciones de primer o segundo orden si el efecto principal no está allí. Una buena regla quizás, pero seguirla religiosamente significa pasar por alto las excepciones y su problema puede ser una excepción.
fuente
[tratando de responder una parte de la pregunta original que parece quedar sin cubrir en la mayoría de las respuestas: "¿se debe confiar en AIC, como criterio de selección de modelo?"]
AIC debe usarse más como una guía, que como una regla que debe tomarse como evangelio.
La efectividad de AIC (o BIC o cualquier criterio "simple" similar para la selección del modelo) depende en gran medida del algoritmo de aprendizaje y del problema.
Piénselo de esta manera: el objetivo del término complejidad (número de factores) en la fórmula AIC es simple: evitar seleccionar modelos que se ajusten demasiado. Pero la simplicidad de AIC a menudo no logra capturar la complejidad real del problema en sí. Es por eso que existen otras técnicas prácticas para evitar el sobreajuste: por ejemplo, validación cruzada o agregar un término de regularización.
Cuando uso el SGD en línea (descenso de gradiente estocástico) para hacer una regresión lineal en un conjunto de datos con una gran cantidad de entradas, encuentro que el AIC es un terrible predictor de la calidad del modelo porque penaliza excesivamente los modelos complejos con una gran cantidad de términos. Hay muchas situaciones de la vida real en las que cada término tiene un efecto minúsculo, pero en conjunto, un gran número de ellas proporciona una fuerte evidencia estadística de un resultado. Los criterios de selección de modelos AIC y BIC rechazarían estos modelos y preferirían los más simples, aunque los más complejos sean superiores.
Al final, lo que cuenta es el error de generalización (aproximadamente: fuera del rendimiento de la muestra). AIC puede darle una pista de la calidad del modelo en algunas situaciones relativamente simples. Solo tenga cuidado y recuerde que la vida real suele ser más compleja que una simple fórmula.
fuente