¿Tiene sentido agregar un término cuadrático pero no el término lineal a un modelo?

57

Tengo un modelo (mixto) en el que uno de mis predictores debería estar a priori solo relacionado cuadráticamente con el predictor (debido a la manipulación experimental). Por lo tanto, me gustaría agregar solo el término cuadrático al modelo. Dos cosas me impiden hacerlo:

  1. Creo que leí algo que siempre debería incluir el polinomio de orden inferior al ajustar polinomios de orden superior. Olvidé dónde lo encontré y en la literatura que miré (por ejemplo, Faraway, 2002; Fox, 2002) no puedo encontrar una buena explicación.
  2. Cuando agrego ambos, el término lineal y el cuadrático, ambos son significativos. Cuando agrego solo uno de ellos, no son significativos. Sin embargo, una relación lineal de predictor y datos no es interpretable.

El contexto de mi pregunta es específicamente el uso de un modelo mixto lme4, pero me gustaría obtener respuestas que puedan explicar por qué es o por qué no está bien incluir un polinomio de orden superior y no el polinomio de orden inferior.

Si es necesario, puedo proporcionar los datos.

Henrik
fuente
55
Creo que las respuestas a esta pregunta podrían ser útiles.
66
Sí, estoy de acuerdo con el Procrastinator, y las preguntas de interacción son esencialmente la misma consideración. Tenemos algunas preguntas muy votadas sobre el tema. Además de la sugerencia de Pro, consulte también ¿Todos los términos de interacción necesitan sus términos individuales en el modelo de regresión? y ¿Qué pasa si la interacción borra mis efectos directos en la regresión? .
Andy W
Gracias por el recordatorio de estas preguntas. De las respuestas dadas allí parece que es una buena estrategia si tiene buenas razones a priori para incluir solo el término cuadrático y no per se incorrecto. La pregunta que queda es sobre la escalabilidad (ver: stats.stackexchange.com/a/27726/442 ). ¿Debo centrar mi variable antes de ajustar cuando solo utilizo el término cuadrático?
Henrik
1
@Henrik: mi respuesta en el enlace que publicó fue sobre cómo la inferencia del modelo depende de cambios arbitrarios en los valores del predictor (como el centrado medio): no es deseable que la conclusión sustancial dependa de algo tan arbitrario, por eso mi respuesta a su la pregunta es 'no', por la misma razón.
Macro
2
La cuestión de lo cuadrático frente a lo lineal es suficientemente conceptualmente diferente de las interacciones que creo que esto no debería considerarse un duplicado.
gung - Restablece a Monica

Respuestas:

66

1. ¿Por qué incluir el término lineal?

Es esclarecedor notar que una relación cuadrática se puede escribir de dos maneras:

y=a0+a1x+a2x2=a2(xb)2+c

(donde, igualando coeficientes, encontramos y ). El valor corresponde a un extremo global de la relación (geométricamente, ubica el vértice de una parábola).a 2 b 2 + c2a2b=a1 x = ba2b2+c=a0x=b

Si no incluye el término lineal , las posibilidades se reducen aa1x

y=a0+a2x2=a2(x0)2+c

(donde ahora, obviamente, y se supone que el modelo contiene un término constante ). Es decir, fuerzas .c=a0a0b=0

A la luz de esto, la pregunta # 1 se reduce a si está seguro de que el extremo global debe ocurrir en . Si es así, puede omitir con seguridad el término lineal . De lo contrario, debe incluirlo.ax=0a1x

2. ¿Cómo entender los cambios en la significación a medida que se incluyen o excluyen los términos?

Esto se discute en gran detalle en un hilo relacionado en https://stats.stackexchange.com/a/28493 .

En el presente caso, el significado de indica que hay una curvatura en la relación y el significado de indica que no es cero: parece que necesita incluir ambos términos (así como la constante, por supuesto).a 1 ba2a1b

whuber
fuente
1
Gracias whuber. Gran respuesta. Entonces, si centro el extremo teórico en 0 (en realidad es un mínimo), estoy bien con omitir el término lineal. Esto conduce agudamente a un predictor cuadrático altamente significativo (sin el lineal).
Henrik
si los términos lineales y cuadráticos de una variable están correlacionados, ¿puedo incluirlos en un modelo o debería excluir uno (que supongo que debería ser el cuadrático)?
mtao
@Teresa No hay una razón general para eliminar términos correlacionados en una regresión. (¡Si ese fuera el caso, la gran mayoría de los modelos de regresión jamás creados estarían en problemas!) Los términos muy fuertemente correlacionados que en conjunto no aportan nada significativo al ajuste del modelo en comparación con cualquiera de los términos pueden reducirse a un subconjunto de esos términos.
whuber
@whuber, muchas gracias! Además, para un modelo de regresión logística, utilicé el odds ratio para estimar el tamaño del efecto, pero solo con términos lineales. Cuando tengo lineal y cuadrático, ¿puedo usar el mismo enfoque e interpretar los resultados de la misma manera?
mtao
No exactamente. La razón es que no puede cambiar por separado los términos lineal y cuadrático. Debe considerar cómo cambiará la respuesta cuando cambie un poco la variable original.
whuber
22

@whuber ha dado una respuesta realmente excelente aquí. Solo quiero agregar un pequeño punto complementario. La pregunta establece que "una relación lineal de predictor y datos no es interpretable". Esto sugiere un malentendido común, aunque generalmente lo escucho en el otro extremo ("¿cuál es la interpretación del término al cuadrado [cúbico, etc.]?").

Cuando tenemos un modelo con múltiples covariables diferentes , cada beta [término] generalmente puede tener su propia interpretación. Por ejemplo, si:

GPA^college=β0+β1GPAhighschool+β2class rank+β3SAT,

(GPA significa promedio de calificaciones; el
rango es el orden del GPA de un estudiante en relación con otros estudiantes en la misma escuela secundaria; y
SAT significa 'examen de aptitud académica', un examen estándar a nivel nacional para estudiantes que van a la universidad)

entonces podemos asignar interpretaciones separadas a cada beta / término. Por ejemplo, si el GPA de la escuela secundaria de un estudiante fuera 1 punto más alto (todo lo demás igual), esperaríamos que su GPA de la universidad sea puntos más alto. β1

Sin embargo, es importante tener en cuenta que no siempre está permitido interpretar un modelo de esta manera. Un caso obvio es cuando hay una interacción entre algunas de las variables, ya que no sería posible que el término individual difiera y todavía todo se haya mantenido constante; necesariamente, el término de interacción también cambiaría. Por lo tanto, cuando hay una interacción, no interpretamos los efectos principales, sino solo los efectos simples , como se entiende bien.

La situación con términos de poder es directamente análoga, pero desafortunadamente, no parece ser ampliamente entendida. Considere el siguiente modelo: (En esta situación, está destinado a representar una covariable prototípica continua). No es posible que cambie sin que cambie también, y viceversa. En pocas palabras, cuando hay términos polinómicos en un modelo, los diversos términos basados ​​en la misma covariable subyacente no tienen interpretaciones separadas. El término ( , , etc.) no tiene ningún significado independiente. El hecho de que un

y^=β0+β1x+β2x2
xxx2x2xx17pEl término polinomial de potencia es 'significativo' en un modelo indica que hay 'curvas' en la función que relaciona e . Es desafortunado, pero inevitable, que cuando existe la curvatura, la interpretación se vuelve más complicada y posiblemente menos intuitiva. Para evaluar el cambio en medida que cambia, tendremos que usar cálculo. La derivada del modelo anterior es: que es la tasa de cambio instantánea en el valor esperado de cuando cambia, todo lo demás es igual. Esto no es tan limpio como la interpretación del modelo superior; importante, la tasa instantánea de cambio enp1xyy^x
dydx=β1+2β2x
yxy depende del nivel de partir del cual se evalúa el cambiox . Además, la tasa de cambio en es una tasa instantánea; es decir, está cambiando continuamente a lo largo del intervalo de a . Esta es simplemente la naturaleza de una relación curvilínea. yxoldxnew
gung - Restablece a Monica
fuente
1
Excelente respuesta! Esto me recuerda algunas respuestas excelentes que el usuario chl ha proporcionado para interpretar los efectos de interacción . Él da referencias de artículos en esta respuesta, ¿Cuáles son las mejores prácticas para identificar los efectos de interacción? . Y da un maravilloso ejemplo de la visualización gráfica de la interacción usando coplots en esta respuesta. ¿Es posible la interacción entre dos variables continuas? .
Andy W
1
A la respuesta de Gung, solo quiero decir que el modelado estadístico involucra ruido que puede disfrazar los detalles en un modelo de regresión polinómica. Creo que el problema de centrado que planteó Bill Huber fue greta porque en una formulación falta un término lineal y en el otro ocurre con el término cuadrático. La fuerza de la curvatura en la señal dicta la necesidad de un término más alto que el de primer orden, pero realmente no nos dice nada acerca de la necesidad de un término lineal también.
Michael Chernick
7

La respuesta anterior de @ whuber está justo en el blanco al señalar que omitir el término lineal es el modelo cuadrático "habitual" es equivalente a decir: "Estoy absolutamente seguro de que el extremo está en ".x=0

Sin embargo, también debe verificar si el software que está utilizando tiene un "problema". Algunos programas pueden centrar automáticamente los datos al ajustar un polinomio y probar sus coeficientes a menos que desactive el centrado polinomial. Es decir, puede ajustarse a una ecuación que se parece a donde es la media de sus s. Eso obligaría al extremo a estar en . ˉ x x x = ˉ xY=b0+b2(xx¯)2x¯xx=x¯

Su afirmación de que los términos lineal y cuadrático son significativos cuando se ingresan ambos necesita alguna aclaración. Por ejemplo, SAS puede informar una prueba Tipo I y / o Tipo III para ese ejemplo. Tipo I prueba el lineal antes de poner en el cuadrático. El tipo III prueba lo lineal con lo cuadrático en el modelo.

Emil Friedman
fuente
2
Este es un punto razonable, pero solo b / c los datos se centraron antes de crear no significa que pueda estar "absolutamente seguro de que el extremo está en ". Decir que ahora es equivalente a haber dicho "el extremo está en " antes . En cualquier caso, está apostando la imparcialidad de su modelo en su capacidad para especificar el valor x del extremo con precisión infinita. La diferencia b / t de las pruebas de Tipo I y Tipo III también es una adición potencialmente interesante, pero nb, solo diferirían si & estuvieran correlacionadas, es decir, si no hubiera ocurrido el centrado . x = 0 x = ˉ x x x 2x2x=0x=x¯xx2
gung - Restablece a Monica
En una nota diferente, puede referirse a las contribuciones de un usuario indicando su nombre de usuario, posible con el símbolo 'at'. Por ejemplo, en este caso, 'respuesta de @ whuber es justo en el blanco ...' (Un sentimiento con el que estoy de acuerdo.)
Gung - Restablecer Mónica
1
Gracias, Emil, por contribuir con esos recordatorios: vale la pena tenerlos en cuenta.
whuber
3

Brambor, Clark y Golder (2006) (que viene con un apéndice de Internet ) tienen una idea muy clara de cómo entender los modelos de interacción y cómo evitar los escollos comunes, incluido por qué siempre (casi) siempre debe incluir los términos de orden inferior ( "términos constitutivos") en modelos de interacción.

Los analistas deben incluir todos los términos constitutivos al especificar modelos de interacción multiplicativa, excepto en circunstancias muy raras. Por términos constitutivos, nos referimos a cada uno de los elementos que constituyen el término de interacción. [..]

Sin embargo, el lector debe tener en cuenta que los modelos de interacción multiplicativa pueden adoptar una variedad de formas y pueden implicar términos cuadráticos como o términos de interacción de orden superior como . No importa qué forma tome el término de interacción, todos los términos constitutivos deben incluirse. Por lo tanto, debe incluirse cuando el término de interacción es y , , , , y deben incluirse cuando el término de interacción es . X Z J X X 2 X Z J X Z X J Z J XX2XZJXX2XZJXZXJZJXZJ

De lo contrario, puede dar lugar a un modelo poco especificado que conduciría a estimaciones sesgadas. Esto puede conducir a errores de inferencia.

Si este es el caso y está correlacionado con (o ) como ocurrirá en prácticamente cualquier circunstancia de ciencias sociales, entonces omitir el término constitutivo dará como resultado estimaciones sesgadas (e inconsistentes) de , y . Aunque no siempre se reconoce como tal, este es un caso directo de sesgo variable omitido (Greene 2003, pp. 148-149).X Z X ZZXZXZβ 1 β 3β0β1β3

Landroni
fuente