B-Splines VS polinomios de alto orden en regresión

10

No tengo un ejemplo o tarea específica en mente. Soy nuevo en el uso de b-splines y quería entender mejor esta función en el contexto de regresión.

Supongamos que queremos evaluar la relación entre la variable de respuesta y algunos predictores . Los predictores incluyen algunas variables numéricas y algunas categóricas.yx1,x2,...,xp

Digamos que después de ajustar un modelo de regresión, una de las variables numéricas, por ejemplo, es significativa. Un paso lógico después es evaluar si se requieren polinomios de orden superior, por ejemplo: y para explicar adecuadamente la relación sin sobreajustar.x1x12x13

Mis preguntas son:

  1. ¿En qué punto eliges entre b-splines o polinomio de orden superior simple? por ejemplo en R:

    y ~ poly(x1,3) + x2 + x3
    

    vs

     y ~ bs(x1,3) + x2 + x3
    
  2. ¿Cómo puede usar los gráficos para informar su elección entre esos dos y qué sucede si no está realmente claro en los gráficos (por ejemplo: debido a cantidades masivas de puntos de datos)

  3. ¿Cómo evaluaría los términos de interacción bidireccional entre y digamosx2x3

  4. ¿Cómo cambia lo anterior para diferentes tipos de modelos?

  5. ¿Consideraría nunca usar polinomios de alto orden y siempre ajustar b-splines y penalizar la alta flexibilidad?

Vasilis Vasileiou
fuente
99
Escribí sobre esto extensamente aquí: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury el
Dado lo bien desarrollado que mgcvestá, ¿por qué no usar modelos aditivos (generalizados)? La selección de suavidad es automática y los métodos de inferencia están bien desarrollados.
generic_user

Respuestas:

17

Por lo general, solo consideraría splines en lugar de polinomios. Los polinomios no pueden modelar umbrales y, a menudo, son indeseablemente globales, es decir, las observaciones en un rango del predictor tienen una fuerte influencia en lo que hace el modelo en un rango diferente ( Magee, 1998, The American Statistician y Frank Harrell's Regression Modeling Strategies ). Y, por supuesto, las estrías restringidas que son lineales fuera de los nudos extremos son mejores para la extrapolación, o incluso la intrapolación a valores extremos de los predictores.

Un caso en el que es posible que desee considerar los polinomios es cuando es importante explicar su modelo a un público no técnico. La gente entiende los polinomios mejor que las splines. (Editar: Matthew Drury señala que las personas solo pueden pensar que entienden los polinomios mejor que las splines. No tomaré partido en esta pregunta)

Las tramas a menudo no son muy útiles para decidir entre diferentes formas de tratar la no linealidad. Es mejor hacer una validación cruzada. Esto también lo ayudará a evaluar las interacciones o a encontrar una buena penalización.

Finalmente, mi respuesta no cambia con el tipo de modelo, porque los puntos anteriores son válidos para cualquier modelo estadístico o ML.

Stephan Kolassa
fuente
Muchas gracias por su respuesta, fue muy útil. Solo una pregunta de seguimiento rápida. ¿Existe una forma "avanzada" de encontrar los nudos? Mi mejor conjetura sería 1) Usar la intuición, por ejemplo: si la variable representa el tiempo en términos de meses, ¿usar nudos cada 6 o 12? 2) ¿introducir una secuencia que atraviese el rango de la variable y usar validación cruzada para encontrar los nudos óptimos?
Vasilis Vasileiou
8
Las personas piensan que entienden los polinomios mejor que las splines.
Matthew Drury el
3
Con respecto a la colocación de nudos: la validación cruzada es un enfoque, pero para ser honesto, creo que los resultados serán bastante insensibles para conocer la ubicación, siempre y cuando los nudos se coloquen razonablemente y no se agrupen demasiado. Frank Harrell tiene una tabla con ubicaciones de nudos heurísticos en términos de cuantiles de la distribución del predictor en Estrategias de modelado de regresión .
Stephan Kolassa
1
Si bien su respuesta es totalmente válida en este contexto, su afirmación es muy sólida teniendo en cuenta que muchos procesos del mundo real pueden modelarse mejor mediante polinomios.
koalo
6

En la sección 7.4.5 de "Los elementos del aprendizaje estadístico", se dice que las splines a menudo dan mejores resultados que la regresión polinómica, porque:

  • Produce ajustes flexibles;
  • Produce estimaciones más estables;
  • Los polinomios pueden producir resultados indeseables en los límites.
Bruna w
fuente