Estoy un poco confundido acerca de cuándo debería o no agregar términos polinómicos a un modelo de regresión lineal múltiple. Sé que los polinomios se usan para capturar la curvatura en los datos, pero siempre parece tener la forma de:
¿Qué pasa si sabes que hay una relación lineal entre y , pero una relación no lineal entre y ? ¿Se puede usar un modelo en forma de:
Supongo que mi pregunta es, ¿es válido dejar caer el plazo y el término, o ¿tiene que seguir la forma genérica de un modelo de regresión polinómica?
Respuestas:
Además de la excelente respuesta de @ mkt, pensé en proporcionar un ejemplo específico para que lo veas y puedas desarrollar algo de intuición.
Generar datos por ejemplo
Para este ejemplo, generé algunos datos usando R de la siguiente manera:
Como puede ver en lo anterior, los datos provienen del modeloy=β0+β1∗x1+β2∗x2+β3∗x22+ϵ , dónde ϵ es un término de error aleatorio normalmente distribuido con media 0 y varianza desconocida σ2 . Además,β0=1 , β1=10 , β2=0.4 y β3=0.8 , mientras σ=1 .
Visualice los datos generados a través de Coplots
Dados los datos simulados sobre la variable de resultado y y las variables predictoras x1 y x2, podemos visualizar estos datos usando coplots :
Los coplots resultantes se muestran a continuación.
La primera gráfica muestra gráficos de dispersión de y versus x1 cuando x2 pertenece a cuatro rangos diferentes de valores observados (que se superponen) y mejora cada uno de estos gráficos de dispersión con un ajuste suave, posiblemente no lineal, cuya forma se estima a partir de los datos.
La segunda gráfica muestra gráficos de dispersión de y versus x2 cuando x1 pertenece a cuatro rangos diferentes de valores observados (que se superponen) y mejora cada uno de estos gráficos de dispersión con un ajuste suave.
La primera trama sugiere que es razonable suponer que x1 tiene un efecto lineal sobre y cuando se controla x2 y que este efecto no depende de x2.
La segunda trama sugiere que es razonable suponer que x2 tiene un efecto cuadrático en y cuando se controla x1 y que este efecto no depende de x1.
Ajustar un modelo correctamente especificado
Los coplots sugieren ajustar el siguiente modelo a los datos, lo que permite un efecto lineal de x1 y un efecto cuadrático de x2:
Construir componentes más gráficos residuales para el modelo especificado correctamente
Una vez que el modelo especificado correctamente se ajusta a los datos, podemos examinar las gráficas de componentes más residuos para cada predictor incluido en el modelo:
Estos gráficos de componentes más residuales se muestran a continuación y sugieren que el modelo se especificó correctamente ya que no muestran evidencia de no linealidad, etc. De hecho, en cada uno de estos gráficos, no existe una discrepancia obvia entre la línea azul punteada que sugiera un efecto lineal de el predictor correspondiente y la línea magenta sólida que sugiere un efecto no lineal de ese predictor en el modelo.
Ajustar un modelo especificado incorrectamente
Juguemos al abogado del diablo y digamos que nuestro modelo lm () fue de hecho incorrectamente especificado (es decir, mal especificado), en el sentido de que omitió el término cuadrático I (x2 ^ 2):
Construir componentes más gráficos residuales para el modelo especificado incorrectamente
Si construyéramos gráficas de componentes más residuos para el modelo mal especificado, veríamos inmediatamente una sugerencia de no linealidad del efecto de x2 en el modelo mal especificado:
En otras palabras, como se ve a continuación, el modelo mal especificado no pudo capturar el efecto cuadrático de x2 y este efecto se muestra en el gráfico de componente más residual correspondiente al predictor x2 en el modelo mal especificado.
La especificación errónea del efecto de x2 en el modelo m.mis también sería evidente al examinar las gráficas de los residuos asociados con este modelo contra cada uno de los predictores x1 y x2:
Como se ve a continuación, la gráfica de los residuos asociados con m.mis versus x2 exhibe un patrón cuadrático claro, lo que sugiere que el modelo m.mis no logró capturar este patrón sistemático.
Aumentar el modelo especificado incorrectamente
Para especificar correctamente el modelo m.mis, necesitaríamos aumentarlo para que también incluya el término I (x2 ^ 2):
Aquí están las gráficas de los residuos versus x1 y x2 para este modelo correctamente especificado:
Observe que el patrón cuadrático visto anteriormente en la gráfica de residuos versus x2 para el modelo mal especificado m.mis ahora ha desaparecido de la gráfica de residuos versus x2 para el modelo m correctamente especificado.
Tenga en cuenta que el eje vertical de todas las gráficas de residuos versus x1 y x2 que se muestran aquí debe etiquetarse como "Residual". Por alguna razón, R Studio corta esa etiqueta.
fuente
Sí, lo que estás sugiriendo está bien. Es perfectamente válido en un modelo para tratar la respuesta a un predictor como lineal y otro diferente como polinomial. También está completamente bien asumir que no hay interacciones entre los predictores.
fuente
Debe tener cuidado de usar polinomios ortogonales si va a agregar términos polinomiales.
¿Por qué? Sin ellos tienes un problema parecido a la colinealidad . En ciertas regiones,X2 se verá bastante similar a X , y una parábola hará un trabajo decente al ajustar una línea recta.
Observar:
Estos son polinomios dex ,X2,X3 .
Entre 0 y 1.5, las tres curvas aumentan monotónicamente y aunque se curvan de manera diferente entre sí, darán ajustes de calidad similares cuando x se correlaciona positivamente con y. Al usar los tres en su código
esencialmente está utilizando formas redundantes para ajustar sus datos.
Los polinomios ortogonales esencialmente le dan margen de maniobra adicional cuando se ajusta, y cada polinomio es esencialmente independiente de los demás.
Tres polinomios de grado 1,2 y 3 generados por la función poly () en R.
Tal vez, en lugar de pensar explícitamente en ellos como polinomios, los consideres como 'componentes de tendencia' o algo así:
Hay muchas matemáticas complicadas involucradas en polinomios ortogonales, pero afortunadamente solo necesitas saber dos cosas:
fuente
poly
porque si lo intentaspredict
, volverá a colocar los polinomios en la muestra de predicción; es decir, tenemos basura.No hay una regla que diga que tienes que usar todas tus variables. Si está tratando de predecir ingresos, y sus variables de características son el SSN, los años de escolaridad y la edad, y desea eliminar el SSN porque espera que cualquier correlación entre este y los ingresos sea espuria, es su decisión. Un modelo no es inválido simplemente porque hay otras variables que teóricamente podrías haber incluido, pero no lo hiciste. Decidir qué términos polinómicos incluir es solo una de las muchas decisiones con respecto a la selección de características.
Si bien los modelos polinómicos a menudo comienzan con la inclusión de todos los términos, eso es solo para que todos puedan evaluarse en cuanto a la cantidad que están agregando al modelo. Si parece que un término en particular es solo un sobreajuste, se puede descartar en iteraciones posteriores del modelo. La regularización, como la regresión de lazo, puede descartar variables menos útiles automáticamente. En general, es mejor comenzar con un modelo que tenga demasiadas variables, y reducirlo a las que sean más útiles, que comenzar solo con las variables en las que cree que debe confiar el modelo, y posiblemente perder una relación No estaban esperando.
fuente