¿Cuándo usar la regresión no paramétrica?

9

Estoy usando PROC GLM en SAS para ajustar una ecuación de regresión de la siguiente forma

Y=b0+b1X1+b2X2+b3X3+b4t

La gráfica QQ de los redsiduales resultantes indica una desviación de la normalidad. Cualquier transformación de no es útil para normalizar los residuos.Y

En este punto, ¿puedo cambiar de forma segura a métodos no paramétricos como PROC LOESS?

Ya he usado PROC LOESS, y el ajuste se ve mejor que PROC GLM. Pero no tengo mucho conocimiento en regresión no paramétrica. No sé cuándo elegir la regresión no paramétrica sobre la regresión paramétrica.

¿Puede alguien ayudarme con esto?

Seguiré adelante y agregaré otra pregunta. Los siguientes son la descripción de mis variables en el modelo. A veces obtengo un costo predicho negativo. Esto no tiene sentido. ¿Cómo puedo abordar este problema?

Y=cost of medical careX1=number of injectionsX2=number of surgeriesX3=number of physical therapiest=time
Ana
fuente
2
log(Y)=b0+b1X1+b2X2+b3X3+b4t

Respuestas:

10

xx

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

Es decir, un "blob" horizontal aleatorio de puntos, centrado alrededor de la línea resid = 0.

Si el efecto no es lineal, espera ver algo de curvatura en este gráfico. (y, por favor, ignore los QQplots hasta que haya solucionado las no linealidades, ¡usando los gráficos como se indica arriba!)

También debe pensar en posibles interacciones (modeladas generalmente por términos de producto), es decir, el efecto de una variable depende de los niveles de otra (si las tres variables tienen valores altos al mismo tiempo, tal vez eso muestre algunas dificultades particularmente difíciles). paciente? Si es así, podrían ser necesarias las interacciones).

Si buscas algún modelo no lineal, después de haber intentado interacciones y transformaciones (¿lo intentaste log(Cost)?) ¿Intentaste algunas transformaciones box-cox? Como tiene regresión múltiple, no creo que loesssea ​​lo que necesita, debe buscar gam(modelos de aditivos generalizados, SAS debería tener eso, en R está en el paquete mgcv).

kjetil b halvorsen
fuente
1
Gracias por la valiosa información. Intenté el registro (costo) con la regresión lineal, pero no ayudó mucho. Agregaré los efectos de interacción y observaré lo que sucede. También experimentaré con transformaciones nuevamente. Mantendré a todos informados sobre mis desarrollos y hallazgos.
ann
6

Un LOESS siempre dará un mejor ajuste que la regresión, a menos que los datos realmente se encuentren en una línea recta. LOESS es una aproximación localmente lineal que está diseñada para pasar cerca de los datos. Estos métodos son básicamente exploratorios. Y si bien es peligroso extrapolar un modelo lineal más allá de los límites del ajuste, la extrapolación sería temeraria en el caso de LOESS.

Si su modelo le da costos negativos, es una buena señal de que una regresión lineal no es apropiada en las variables que tiene. Dices que intentaste transformaciones. ¿Tomó el registro de costos contra sus predictores?

En la naturaleza de las cosas, es poco probable que haya una relación simple entre el costo y las variables que menciona. A veces, el propósito de una regresión lineal es simplemente demostrar que existe algún tipo de correlación, y tal vez seleccionar un conjunto sensible de predictores.

Placidia
fuente
1
Tiene mucho sentido cuando mencionas que los costos negativos indican que la regresión lineal podría no ser apropiada. Continuaré mi análisis y agregaré algunas interacciones. Gracias.
ann
3

Bravo por hacer análisis residuales. Te pone por delante del analista típico. (Sin embargo, su descripción del modelo es deficiente al no describir la estructura del error). Debería considerar las transformaciones de las X así como también las transformaciones de las Y. Me doy cuenta de que SAS está detrás de R en el modelado con ajustes de spline, pero entiendo que las versiones recientes han ofrecido esa capacidad. Considere agregar ajustes de spline cúbicos restringidos para los términos X. Como referencia, el texto de Frank Harrell "Estrategias de modelado de regresión" es difícil de superar. Tiene argumentos estadísticos sólidos para este enfoque. Es un enfoque paramétrico que permite descubrir estructuras en los datos que de otra forma se perderían.

DWin
fuente
YX
log(Y)=b0+b1log(X1)+b2log(X2)X1X2
Dirk Horsten
Su comentario parece bastante tangencial a mi respuesta (y a la pregunta ya que nunca se mencionó la división de inyecciones por brazo) Espero que no piense que las funciones de spline son equivalentes a las transformaciones de registro. La transformación logarítmica de la Y crea un modelo donde el modelo es multiplicativo en los predictores cuando se transforma de nuevo a la escala de costos. Ese es un cambio bastante grande y uno cuyos problemas no ha descrito adecuadamente al interlocutor.
DWin
2

Creo que kjetil te ha dado algunas buenas sugerencias. Agregaría que los residuos no normales no significan que tenga que saltar de una regresión lineal o no lineal a una regresión no paramétrica. Al ir a la regresión no paramétrica, abandonas la estructura de una forma funcional. Hay una alternativa de regresión robusta a la regresión OLS a la que podría ir primero. Luego, modelos lineales generalizados y modelos aditivos generalizados si se necesitan los siguientes pasos. LOESS, en mi opinión, debería ser su último recurso. Creo que estoy de acuerdo con kjetil en eso.

Michael R. Chernick
fuente