¿Cuán diferentes son las splines cúbicas restringidas y las splines penalizadas?

11

Estoy leyendo mucho sobre el uso de splines en varios problemas de regresión. Algunos libros (p. Ej., Modelos lineales ricamente parametrizados de Hodges ) recomiendan splines penalizadas. Otros (por ejemplo, estrategias de modelado de regresión de Harrell ) optan por splines cúbicos restringidos.

¿Qué tan diferentes son estos, en la práctica? ¿A menudo obtendría resultados sustancialmente diferentes al usar uno u otro? ¿Uno u otro tiene ventajas particulares?

Peter Flom - Restablece a Monica
fuente

Respuestas:

8

Según mi lectura, los dos conceptos que nos pide que comparemos son bestias bastante diferentes y requerirían una comparación similar a las manzanas y las naranjas. Esto hace que muchas de sus preguntas sean un tanto discutibles: idealmente (suponiendo que uno pueda escribir una penalización de meneo por la base RCS en la forma requerida) usaría un modelo de spline de regresión cúbica restringido penalizado.

Splines cúbicas restringidas

Una spline cúbica restringida (o una spline natural) es una base de spline construida a partir de funciones polinómicas cúbicas por partes que se unen suavemente en algunas ubicaciones o nudos especificados previamente. Lo que distingue una spline cúbica restringida de una spline cúbica es que se imponen restricciones adicionales en la versión restringida de modo que la spline sea lineal antes del primer nudo y después del último nudo. Esto se hace para mejorar el rendimiento de la spline en las colas de .X

La selección del modelo con un RCS generalmente implica elegir el número de nudos y su ubicación, y el primero determina cuán ondulada o compleja es la spline resultante. A menos que se implementen algunos pasos adicionales para regularizar los coeficientes estimados al ajustar el modelo, el número de nudos controla directamente la complejidad de la ranura.

Esto significa que el usuario tiene algunos problemas que superar cuando estima un modelo que contiene uno o más términos RCS:

  1. ¿Cuántos nudos usar?
  2. ¿Dónde colocar esos nudos en el lapso de ?X
  3. ¿Cómo comparar modelos con diferentes números de nudos?

Por sí solos, los términos de RCS requieren la intervención del usuario para resolver estos problemas.

Splines penalizados

Splines de regresión penalizados (sensu Hodges) en su propio problema de abordaje 3. solamente, pero permiten evitar el problema 1 . La idea aquí es que, además de la expansión de base de , y por ahora supongamos que se trata de una spline cúbica, también se crea una matriz de penalización de ondulación. Wiggliness se mide usando algún derivado de la spline estimado, con el derivado típico utilizado siendo la segunda derivada, y la pena de sí mismo representa la segunda derivada cuadrado integrado en el rango de . Esta penalización se puede escribir en forma cuadrática comoXX

βTSβ

donde es una matriz de penalización y son los coeficientes del modelo. Luego, se encuentran los valores de los coeficientes para maximizar la probabilidad de registro penalizada ceriterionSβLp

Lp=LλβTSβ

donde es el log-verosimilitud del modelo y es el parámetro de suavidad, que controla qué tan fuertemente penalizar la ondulación de la spline.Lλ

Como la probabilidad de registro penalizada puede evaluarse en términos de los coeficientes del modelo, ajustar este modelo se convierte efectivamente en un problema para encontrar un valor óptimo para mientras se actualizan los coeficientes durante la búsqueda de ese óptimo .λλ

λ se puede elegir mediante validación cruzada, validación cruzada generalizada (GCV) o criterios de probabilidad marginal o de probabilidad marginal restringida. Los dos últimos reformulan efectivamente el modelo de spline como un modelo de efectos mixtos (las partes perfectamente suaves de la base se convierten en efectos fijos y las partes onduladas de la base son efectos aleatorios, y el parámetro de suavidad está inversamente relacionado con el término de varianza para los efectos aleatorios ), que es lo que Hodges está considerando en su libro.

¿Por qué esto resuelve el problema de cuántos nudos usar? Bueno, eso solo hace eso. Esto resuelve el problema de no requerir un nudo en cada punto de datos único (una spline de suavizado), pero aún debe elegir cuántos nudos o funciones básicas usar. Sin embargo, debido a que la penalización reduce los coeficientes, puede salirse con la suya eligiendo una dimensión base tan grande como cree que es necesaria para contener la función verdadera o una aproximación cercana a ella, y luego deja que la penalización controle cuán ondulada es la spline estimada en última instancia. es decir, con el potencial adicional de ondulación disponible en la base eliminada o controlada por la penalización.

Comparación

Splines penalizados (regresión) y RCS son conceptos bastante diferentes. No hay nada que le impida crear una base RCS y una penalización asociada en forma cuadrática y luego estimar los coeficientes de spline utilizando las ideas del modelo de spline de regresión penalizado.

RCS es solo un tipo de base que puede utilizar para crear una base de spline, y las splines de regresión penalizadas son una forma de estimar un modelo que contiene una o más splines con penalizaciones de ondulación asociadas.

¿Podemos evitar los problemas 1., 2. y 3.?

Sí, hasta cierto punto, con una base de placa delgada (TPS). Una base TPS tiene el mayor número de funciones de base de datos como valores únicos en . Lo que Wood (2003) demostró fue que puede crear una base Spline de regresión de placa delgada (TPRS) que utiliza una descomposición propia de las funciones básicas de TPS, y que retiene solo la primera mayor voz. Todavía tienes que especificarXk kkk, la cantidad de funciones básicas que desea usar, pero la elección generalmente se basa en cuán ondulada espera que sea la función ajustada y cuánto impacto computacional está dispuesto a recibir. Tampoco es necesario especificar las ubicaciones de los nudos, y la penalización reduce los coeficientes, por lo que se evita el problema de selección del modelo, ya que solo se tiene un modelo penalizado, no muchos no penalizados con diferentes números de nudos.

Estrías P

Para complicar aún más las cosas, hay un tipo de base de spline conocida como P-spline (Eilers y Marx, 1996)), donde la menudo se interpreta como "penalizada". Las splines P son una base B-spline con una penalización de diferencia aplicada directamente a los coeficientes del modelo. En el uso típico, la penalización P-spline penaliza las diferencias al cuadrado entre los coeficientes del modelo adyacente, lo que a su vez penaliza la ondulación. Las splines P son muy fáciles de configurar y dan como resultado una matriz de penalización dispersa que los hace muy susceptibles de estimar los términos spline en modelos Bayesianos basados ​​en MCMC (Wood, 2017).P

Referencias

Eilers, PHC y BD Marx. 1996. Suavizado flexible con líneas y penalizaciones. Stat. Sci.

Wood, SN 2003. Splines de regresión de placa delgada. JR Stat. Soc. Serie B Stat. Metodol. 65: 95-114. doi: 10.1111 / 1467-9868.00374

Wood, SN 2017. Modelos aditivos generalizados: una introducción con R, segunda edición, CRC Press.

Gavin Simpson
fuente
44
+6, excelente trato. Recuérdame en un par de días, si lo olvido, y daré una recompensa por esto.
gung - Restablece a Monica
1
¡Gracias por esto!
Peter Flom - Restablece a Monica
¿¿¿¿¿¿La generosidad??????
kjetil b halvorsen