Splines en GLM y GAM

12

¿Es incorrecto que las splines solo estén disponibles en los modelos GAM y no en los modelos GLM? Escuché esto hace un tiempo, y me pregunto si esto es solo una idea falsa, o si tiene algo de verdad. Aquí hay una ilustración: http://www.stats.uwo.ca/faculty/bellhouse/glm%20and%20gam.pdf

Hola jane
fuente

Respuestas:

18

Estás equivocado. Las splines tienen una representación lineal utilizando covariables derivadas. Como ejemplo, una tendencia cuadrática no es lineal, pero se puede modelar en un modelo lineal tomando: , por lo tanto, y su cuadrado son datos de entrada en un modelo lineal. XE[Y|X]=β0+β1X+β2X2X

La spline puede verse simplemente como una sofisticada parametrización de una o más covariables de valor continuo o pseudo-continuo.

AdamO
fuente
¡Gracias por responder! Entonces, al decir que estoy equivocado, quiere decir que las splines se pueden usar en GLM, ¿correcto? No entendí completamente.
HeyJane
Si, absolutamente. En R, importe el paquete splinesy la ejecución le bs(...)permite crear una representación lineal de una spline con un grado polinómico y puntos de nudo especificados por el usuario.
AdamO
77
Escribí mucho sobre esta pregunta aquí: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury
¡Muchas gracias a los dos! Lo veo ahora, AdamO! Gran página, Matthew, ¡lo leeré todo! :)
HeyJane
12

La respuesta de @ AdamO es correcta, ya que los ajustes basados ​​en splines ciertamente se pueden hacer en el marco GLM estándar. ¡Eso no quiere decir que los GAM sean solo un caso especial de GLM! Si bien hay una serie de modelos que son exactamente idénticos y se pueden enmarcar como GAM o GLM con una expansión de spline de las covariables, hay algunos modelos GAM que no están disponibles en el marco GLM estándar.

Por ejemplo, uno podría ajustarse a un modelo GAM utilizando una spline de suavizado para cada una de las covariables. Esto básicamente resulta en una expansión spline de las variables, pero con una penalización en las segundas derivadas. Esto da como resultado un modelo que está un poco fuera del marco GLM estándar.

Además, a menudo se considera un procedimiento estándar, y está integrado en la mayoría de las bibliotecas GAM, para ajustarse a los parámetros de suavizado (es decir, grados de libertad de spline, etc.) mediante la optimización de varias medidas de errores fuera de la muestra, mientras que la formulación GLM generalmente considera el espacio covariable fijo.

Acantilado
fuente
Desearía poder votarte, pero no tengo suficientes puntos. Gracias por contribuir No estoy seguro de entender tu segundo párrafo: ¿estás diciendo que las splines suavizadas solo se pueden ajustar con GAM? ¿Podría explicar cuál es exactamente la diferencia entre una spline cúbica regular y una spline cúbica de suavizado? Entiendo que esto es mucho pedir.
HeyJane
@HeyJane: si miras la página de Wikipedia, notarás que estas splines están penalizadas por su segunda derivada. Esto permite controlar la suavidad mediante una penalización continua en lugar de un número entero de grados de libertad. Como tal, es un problema penalizado de máxima probabilidad, en lugar de un problema estándar de máxima probabilidad. Esto significa que no puede ajustarlos directamente con la glmfunción de R , a diferencia de cuando usa splines cúbicas estándar con un glm.
Cliff AB
2
¡Ajá! ¡Lo entiendo! Entonces, en lugar de, con una spline cúbica regular, decir que solo queremos que las segundas derivadas sean iguales en los nudos, queremos imponer alguna propiedad sobre la segunda derivada, es decir, que la segunda derivada no sea demasiado alta, ¿de ahí el término de penalización?
HeyJane
@HeyJane: sí, diría que es un buen resumen.
Cliff AB