Estoy trabajando en un modelo de costo predictivo donde la edad del paciente (una cantidad entera medida en años) es una de las variables predictoras. Es evidente una fuerte relación no lineal entre la edad y el riesgo de hospitalización:
Estoy considerando una spline de suavizado de regresión penalizada para la edad del paciente. Según The Elements of Statistical Learning (Hastie et al, 2009, p.151), la colocación óptima del nudo es de un nudo por valor único de la edad del miembro.
Dado que estoy reteniendo la edad como un número entero, ¿la spline de suavizado penalizada es equivalente a ejecutar una regresión de cresta o lazo con 101 variables de indicador de edad distintas, una por valor de edad encontrado en el conjunto de datos (menos uno para referencia)? Luego se evita la sobre parametrización ya que los coeficientes en cada indicador de edad se reducen a cero.
Respuestas:
Gran pregunta Creo que la respuesta a la pregunta que hace - "es la spline de suavizado penalizada equivalente a ejecutar una regresión de cresta o lazo" - es sí. Existen varias fuentes que pueden proporcionar comentarios y perspectivas. Un lugar con el que puede comenzar es este enlace PDF . Como se señala en las notas:
"Ajustar un modelo de spline suavizado equivale a realizar una forma de regresión de cresta en base a splines naturales".
Si está buscando una lectura general, puede disfrutar leyendo este excelente artículo sobre Regresiones penalizadas: El puente contra el lazo . Esto podría ayudar a responder la pregunta de si la spline de suavizado penalizada es exactamente equivalente, aunque proporciona una perspectiva más general. Me parece interesante ya que compararon diferentes técnicas entre sí, específicamente un nuevo modelo de regresión de puente con LASSO, así como la regresión de Ridge.
Otro lugar más táctico para verificar podrían ser las notas del paquete para el paquete smooth.spline en R. Observe que insinúan la relación aquí, al observar que: "con estas definiciones, donde la representación de base B-spline se puede establecer como f = X c (es decir, c es el vector de los coeficientes de spline), la probabilidad logarítmica penalizada es , y por lo tanto es la solución de la (regresión de cresta) ".c ( X T W X + λ Σ ) c = X T W yL = ( y- f)TW( y- f) + λ cTΣ c C ( XTWX+ λ Σ ) c = XTWy
fuente
No estoy seguro de que realmente quieras tantos nudos, dada la trama.
Parece que puede tener algunas muestras pequeñas a edades particulares; el pico en 74 y los valores 0 en los extremos bajo y alto tienen poco sentido.
Dada la autoridad de la fuente de su sitio, ¿tal vez quiera splines cúbicas restringidas en su lugar, con un número mucho menor de nudos?
fuente
Llegué tarde a esta discusión, pero mire el gráfico de los datos ... que la espiga aparente en los datos de más de 70 años no es un reflejo verdadero del riesgo relacionado con la edad, es un síntoma de datos escasos y algo de aleatoriedad.
No querrás modelar eso usando un nudo por año, eso ciertamente llevaría a sobreajustar el ruido.
Además, vas a encontrar un patrón muy diferente si observas a las mujeres frente a los hombres. La mayor parte del pico en el rango de 15-30 años será obstetricia.
fuente