Tengo un modelo (mixto) en el que uno de mis predictores debería estar a priori solo relacionado cuadráticamente con el predictor (debido a la manipulación experimental). Por lo tanto, me gustaría agregar solo el término cuadrático al modelo. Dos cosas me impiden hacerlo:
- Creo que leí algo que siempre debería incluir el polinomio de orden inferior al ajustar polinomios de orden superior. Olvidé dónde lo encontré y en la literatura que miré (por ejemplo, Faraway, 2002; Fox, 2002) no puedo encontrar una buena explicación.
- Cuando agrego ambos, el término lineal y el cuadrático, ambos son significativos. Cuando agrego solo uno de ellos, no son significativos. Sin embargo, una relación lineal de predictor y datos no es interpretable.
El contexto de mi pregunta es específicamente el uso de un modelo mixto lme4
, pero me gustaría obtener respuestas que puedan explicar por qué es o por qué no está bien incluir un polinomio de orden superior y no el polinomio de orden inferior.
Si es necesario, puedo proporcionar los datos.
regression
polynomial
Henrik
fuente
fuente
Respuestas:
1. ¿Por qué incluir el término lineal?
Es esclarecedor notar que una relación cuadrática se puede escribir de dos maneras:
(donde, igualando coeficientes, encontramos y ). El valor corresponde a un extremo global de la relación (geométricamente, ubica el vértice de una parábola).a 2 b 2 + c−2a2b=a1 x = ba2b2+c=a0 x=b
Si no incluye el término lineal , las posibilidades se reducen aa1x
(donde ahora, obviamente, y se supone que el modelo contiene un término constante ). Es decir, fuerzas .c=a0 a0 b=0
A la luz de esto, la pregunta # 1 se reduce a si está seguro de que el extremo global debe ocurrir en . Si es así, puede omitir con seguridad el término lineal . De lo contrario, debe incluirlo.ax=0 a1x
2. ¿Cómo entender los cambios en la significación a medida que se incluyen o excluyen los términos?
Esto se discute en gran detalle en un hilo relacionado en https://stats.stackexchange.com/a/28493 .
En el presente caso, el significado de indica que hay una curvatura en la relación y el significado de indica que no es cero: parece que necesita incluir ambos términos (así como la constante, por supuesto).a 1 ba2 a1 b
fuente
@whuber ha dado una respuesta realmente excelente aquí. Solo quiero agregar un pequeño punto complementario. La pregunta establece que "una relación lineal de predictor y datos no es interpretable". Esto sugiere un malentendido común, aunque generalmente lo escucho en el otro extremo ("¿cuál es la interpretación del término al cuadrado [cúbico, etc.]?").
Cuando tenemos un modelo con múltiples covariables diferentes , cada beta [término] generalmente puede tener su propia interpretación. Por ejemplo, si:
entonces podemos asignar interpretaciones separadas a cada beta / término. Por ejemplo, si el GPA de la escuela secundaria de un estudiante fuera 1 punto más alto (todo lo demás igual), esperaríamos que su GPA de la universidad sea puntos más alto.β1
Sin embargo, es importante tener en cuenta que no siempre está permitido interpretar un modelo de esta manera. Un caso obvio es cuando hay una interacción entre algunas de las variables, ya que no sería posible que el término individual difiera y todavía todo se haya mantenido constante; necesariamente, el término de interacción también cambiaría. Por lo tanto, cuando hay una interacción, no interpretamos los efectos principales, sino solo los efectos simples , como se entiende bien.
La situación con términos de poder es directamente análoga, pero desafortunadamente, no parece ser ampliamente entendida. Considere el siguiente modelo: (En esta situación, está destinado a representar una covariable prototípica continua). No es posible que cambie sin que cambie también, y viceversa. En pocas palabras, cuando hay términos polinómicos en un modelo, los diversos términos basados en la misma covariable subyacente no tienen interpretaciones separadas. El término ( , , etc.) no tiene ningún significado independiente. El hecho de que un
fuente
La respuesta anterior de @ whuber está justo en el blanco al señalar que omitir el término lineal es el modelo cuadrático "habitual" es equivalente a decir: "Estoy absolutamente seguro de que el extremo está en ".x=0
Sin embargo, también debe verificar si el software que está utilizando tiene un "problema". Algunos programas pueden centrar automáticamente los datos al ajustar un polinomio y probar sus coeficientes a menos que desactive el centrado polinomial. Es decir, puede ajustarse a una ecuación que se parece a donde es la media de sus s. Eso obligaría al extremo a estar en . ˉ x x x = ˉ xY=b0+b2(x−x¯)2 x¯ x x=x¯
Su afirmación de que los términos lineal y cuadrático son significativos cuando se ingresan ambos necesita alguna aclaración. Por ejemplo, SAS puede informar una prueba Tipo I y / o Tipo III para ese ejemplo. Tipo I prueba el lineal antes de poner en el cuadrático. El tipo III prueba lo lineal con lo cuadrático en el modelo.
fuente
Brambor, Clark y Golder (2006) (que viene con un apéndice de Internet ) tienen una idea muy clara de cómo entender los modelos de interacción y cómo evitar los escollos comunes, incluido por qué siempre (casi) siempre debe incluir los términos de orden inferior ( "términos constitutivos") en modelos de interacción.
De lo contrario, puede dar lugar a un modelo poco especificado que conduciría a estimaciones sesgadas. Esto puede conducir a errores de inferencia.
fuente