Estoy usando PROC GLM en SAS para ajustar una ecuación de regresión de la siguiente forma
La gráfica QQ de los redsiduales resultantes indica una desviación de la normalidad. Cualquier transformación de no es útil para normalizar los residuos.
En este punto, ¿puedo cambiar de forma segura a métodos no paramétricos como PROC LOESS?
Ya he usado PROC LOESS, y el ajuste se ve mejor que PROC GLM. Pero no tengo mucho conocimiento en regresión no paramétrica. No sé cuándo elegir la regresión no paramétrica sobre la regresión paramétrica.
¿Puede alguien ayudarme con esto?
Seguiré adelante y agregaré otra pregunta. Los siguientes son la descripción de mis variables en el modelo. A veces obtengo un costo predicho negativo. Esto no tiene sentido. ¿Cómo puedo abordar este problema?
Respuestas:
Es decir, un "blob" horizontal aleatorio de puntos, centrado alrededor de la línea resid = 0.
Si el efecto no es lineal, espera ver algo de curvatura en este gráfico. (y, por favor, ignore los QQplots hasta que haya solucionado las no linealidades, ¡usando los gráficos como se indica arriba!)
También debe pensar en posibles interacciones (modeladas generalmente por términos de producto), es decir, el efecto de una variable depende de los niveles de otra (si las tres variables tienen valores altos al mismo tiempo, tal vez eso muestre algunas dificultades particularmente difíciles). paciente? Si es así, podrían ser necesarias las interacciones).
Si buscas algún modelo no lineal, después de haber intentado interacciones y transformaciones (¿lo intentaste
log(Cost)
?) ¿Intentaste algunas transformaciones box-cox? Como tiene regresión múltiple, no creo queloess
sea lo que necesita, debe buscargam
(modelos de aditivos generalizados, SAS debería tener eso, en R está en el paquetemgcv
).fuente
Un LOESS siempre dará un mejor ajuste que la regresión, a menos que los datos realmente se encuentren en una línea recta. LOESS es una aproximación localmente lineal que está diseñada para pasar cerca de los datos. Estos métodos son básicamente exploratorios. Y si bien es peligroso extrapolar un modelo lineal más allá de los límites del ajuste, la extrapolación sería temeraria en el caso de LOESS.
Si su modelo le da costos negativos, es una buena señal de que una regresión lineal no es apropiada en las variables que tiene. Dices que intentaste transformaciones. ¿Tomó el registro de costos contra sus predictores?
En la naturaleza de las cosas, es poco probable que haya una relación simple entre el costo y las variables que menciona. A veces, el propósito de una regresión lineal es simplemente demostrar que existe algún tipo de correlación, y tal vez seleccionar un conjunto sensible de predictores.
fuente
Bravo por hacer análisis residuales. Te pone por delante del analista típico. (Sin embargo, su descripción del modelo es deficiente al no describir la estructura del error). Debería considerar las transformaciones de las X así como también las transformaciones de las Y. Me doy cuenta de que SAS está detrás de R en el modelado con ajustes de spline, pero entiendo que las versiones recientes han ofrecido esa capacidad. Considere agregar ajustes de spline cúbicos restringidos para los términos X. Como referencia, el texto de Frank Harrell "Estrategias de modelado de regresión" es difícil de superar. Tiene argumentos estadísticos sólidos para este enfoque. Es un enfoque paramétrico que permite descubrir estructuras en los datos que de otra forma se perderían.
fuente
Creo que kjetil te ha dado algunas buenas sugerencias. Agregaría que los residuos no normales no significan que tenga que saltar de una regresión lineal o no lineal a una regresión no paramétrica. Al ir a la regresión no paramétrica, abandonas la estructura de una forma funcional. Hay una alternativa de regresión robusta a la regresión OLS a la que podría ir primero. Luego, modelos lineales generalizados y modelos aditivos generalizados si se necesitan los siguientes pasos. LOESS, en mi opinión, debería ser su último recurso. Creo que estoy de acuerdo con kjetil en eso.
fuente