Selección de k nudos en regresión suavizado spline equivalente a k variables categóricas?

9

Estoy trabajando en un modelo de costo predictivo donde la edad del paciente (una cantidad entera medida en años) es una de las variables predictoras. Es evidente una fuerte relación no lineal entre la edad y el riesgo de hospitalización:

ingrese la descripción de la imagen aquí

Estoy considerando una spline de suavizado de regresión penalizada para la edad del paciente. Según The Elements of Statistical Learning (Hastie et al, 2009, p.151), la colocación óptima del nudo es de un nudo por valor único de la edad del miembro.

Dado que estoy reteniendo la edad como un número entero, ¿la spline de suavizado penalizada es equivalente a ejecutar una regresión de cresta o lazo con 101 variables de indicador de edad distintas, una por valor de edad encontrado en el conjunto de datos (menos uno para referencia)? Luego se evita la sobre parametrización ya que los coeficientes en cada indicador de edad se reducen a cero.

RobertF
fuente
Su propuesta de edad indicadores + contracción es esencialmente el mismo que una spline de suavizado de orden 0.
Glen_b -Reinstate Mónica
Sería útil si especificara cuáles son las otras variables predictivas, como sugiere una de las respuestas, si controla por el motivo de admisión, podría tener un gráfico muy diferente.
seanv507

Respuestas:

11

Gran pregunta Creo que la respuesta a la pregunta que hace - "es la spline de suavizado penalizada equivalente a ejecutar una regresión de cresta o lazo" - es sí. Existen varias fuentes que pueden proporcionar comentarios y perspectivas. Un lugar con el que puede comenzar es este enlace PDF . Como se señala en las notas:

"Ajustar un modelo de spline suavizado equivale a realizar una forma de regresión de cresta en base a splines naturales".

Si está buscando una lectura general, puede disfrutar leyendo este excelente artículo sobre Regresiones penalizadas: El puente contra el lazo . Esto podría ayudar a responder la pregunta de si la spline de suavizado penalizada es exactamente equivalente, aunque proporciona una perspectiva más general. Me parece interesante ya que compararon diferentes técnicas entre sí, específicamente un nuevo modelo de regresión de puente con LASSO, así como la regresión de Ridge.

Otro lugar más táctico para verificar podrían ser las notas del paquete para el paquete smooth.spline en R. Observe que insinúan la relación aquí, al observar que: "con estas definiciones, donde la representación de base B-spline se puede establecer como f = X c (es decir, c es el vector de los coeficientes de spline), la probabilidad logarítmica penalizada es , y por lo tanto es la solución de la (regresión de cresta) ".c ( X T W X + λ Σ ) c = X T W yL=(yf)TW(yf)+λcTΣcc(XTWX+λΣ)c=XTWy

Nathaniel Payne
fuente
No te preocupes @RobertF. Que tengan una buena tarde.
Nathaniel Payne
1
El enlace al enlace PDF en el párrafo 1 está roto.
Jthorpe
3

No estoy seguro de que realmente quieras tantos nudos, dada la trama.

Parece que puede tener algunas muestras pequeñas a edades particulares; el pico en 74 y los valores 0 en los extremos bajo y alto tienen poco sentido.

Dada la autoridad de la fuente de su sitio, ¿tal vez quiera splines cúbicas restringidas en su lugar, con un número mucho menor de nudos?

Peter Flom - Restablece a Monica
fuente
1
Gracias Peter, sí, # de obs son escasos para muy jóvenes y viejos. Usar tantos nudos parece contradictorio, cuando leí por primera vez en ESL hice una doble toma mental de que colocar un nudo en cada observación minimiza la suma de cuadrados residuales penalizados. Supongo que la prueba está en el pudín si una spline cúbica restringida o una spline de suavizado penalizada funciona mejor para predecir mi variable de respuesta en el conjunto de datos de prueba.
RobertF
0

Llegué tarde a esta discusión, pero mire el gráfico de los datos ... que la espiga aparente en los datos de más de 70 años no es un reflejo verdadero del riesgo relacionado con la edad, es un síntoma de datos escasos y algo de aleatoriedad.

No querrás modelar eso usando un nudo por año, eso ciertamente llevaría a sobreajustar el ruido.

Además, vas a encontrar un patrón muy diferente si observas a las mujeres frente a los hombres. La mayor parte del pico en el rango de 15-30 años será obstetricia.

Doug Dame
fuente
Hola Doug: Cierto, definitivamente hay menos observaciones sobre los 70 años. Un modelo penalizado de spline de un año por nudo probablemente reduciría los coeficientes de 70+ a cero. El objetivo aquí sería reemplazar la selección manual de la colocación de nudos con un proceso automatizado que mejor se adapte a la relación no lineal entre la edad y las admisiones de IP, especialmente útil en un modelo predictivo.
RobertF