¿Las técnicas de regresión gradual aumentan el poder predictivo de un modelo?

8

Entiendo algunos de los muchos problemas de regresión gradual. Sin embargo, como un esfuerzo académico, suponga que quiero usar la regresión gradual para un modelo predictivo, y quiero comprender mejor los impactos que puede tener en el rendimiento.

Dado un modelo lineal, por ejemplo, ¿realizar una regresión escalonada en el modelo tiende a aumentar o disminuir el poder predictivo del modelo cuando se le presentan datos nuevos?

¿Hay algún impacto teórico que tendrá la regresión gradual en la capacidad predictiva?

La experiencia práctica también sería útil; quizás situaciones en las que la regresión gradual mejora la predicción y cuando no lo hace.

Socavador
fuente
8
No entiendo esto: comienzas pidiéndonos que ignoremos los problemas, que incluyen problemas con el poder predictivo, ¡y luego preguntas si existen tales problemas! ¿Por qué no busca en nuestro sitio las respuestas? Uno popular está en stats.stackexchange.com/questions/20836 .
whuber
3
Quiero centrarme en los problemas que rodean el poder predictivo (no valores p, sesgos de coeficientes, etc.). Según sus comentarios, haré que la formulación de mi pregunta sea menos ambigua. Mi búsqueda en el sitio no ha dado respuestas específicas al rendimiento predictivo de modelos completos, en comparación con modelos reducidos por pasos.
Underminer
1
¿"Ignorar los problemas de ..." incluiría ignorar mejores alternativas, incluso dentro del enfoque del poder predictivo?
Matthew Drury
@MatthewDrury Estoy principalmente interesado en los efectos de la regresión gradual. Dicho esto, ciertamente me interesarían los resultados de métodos automatizados similares.
Underminer
En los últimos tres párrafos, ¿hay tres cosas diferentes? ¿Cuál es el problema u objetivo exacto que quieres resolver?
Subhash C. Davar

Respuestas:

7

Hay una variedad de problemas con la selección por pasos. Discutí paso a paso en mi respuesta aquí: Algoritmos para la selección automática de modelos . En esa respuesta, no me enfoqué principalmente en los problemas de inferencia, sino en el hecho de que los coeficientes están sesgados (los atletas que prueban son análogos a las variables). Debido a que los coeficientes se desvían de sus valores verdaderos, el error predictivo fuera de la muestra debe aumentarse, ceteris paribus.

Considere la noción del equilibrio de sesgo-varianza . Si piensa en la precisión de su modelo como la varianza de los errores de predicción (es decir, MSE:1/ /norte(yyo-y^yo)2), el error de predicción esperado es la suma de tres fuentes diferentes de variación: Estos tres términos son la varianza de su estimación de la función, el cuadrado del sesgo de la estimación , y el error irreducible en el proceso de generación de datos, respectivamente. (Esto último existe porque los datos no son deterministas: nunca obtendrá predicciones más cercanas que eso en promedio). Las dos primeras provienen del procedimiento utilizado para estimar su modelo. Por defecto, podríamos pensar que OLS es el procedimiento utilizado para estimar el modelo, pero es más correcto decir que la selección por pasos sobre las estimaciones de OLS

mi[(yyo-y^yo)2]=Vunar(F^)+[siyounas(F^)]2+Vunar(ε)
Es el procedimiento. La idea del equilibrio entre sesgo y varianza es que, si bien un modelo explicativo enfatiza correctamente la imparcialidad, un modelo predictivo puede beneficiarse al usar un procedimiento sesgado si la varianza se reduce lo suficiente (para una explicación más completa, ver: ¿Qué problema resuelven los métodos de contracción? ? )

Con esas ideas en mente, el punto de mi respuesta vinculado en la parte superior es que se induce un gran sesgo. En igualdad de condiciones, eso empeorará las predicciones de la muestra. Desafortunadamente, la selección por pasos no reduce la varianza de la estimación. En el mejor de los casos, su varianza es la misma, pero es muy probable que empeore la varianza también (por ejemplo, @Glen_b informa que solo el 15.5% de las veces fueron las variables correctas incluso elegidas en un estudio de simulación discutido aquí: ¿Por qué son valores p engañosos después de realizar una selección por pasos? ).

gung - Restablece a Monica
fuente
3
Odio ser el tipo que defienda la regresión por pasos ... pero no creo que sea realmente universal el caso de que el AIC por pasos conduzca a predicciones peores que conectar todas las covariables sin penalizaciones, especialmente si . Vea aquí una simulación en la que stepAIC hace mucho, mucho mejor que enchufar todas las covariables. nortepags
Cliff AB
2
Gracias, @CliffAB. Lo voté hace mucho tiempo, pero lo había olvidado. Su respuesta sustantiva sugiere que vale la pena tomarse en serio el modelo EDA después de la replicación en una muestra nueva, y que vale la pena tomar en serio su modelo de predicción después de validarlo contra los datos retenidos. Estoy de acuerdo con ambos. Reconoceré que paso a paso funcionó mejor en su simulación, pero estoy seguro de que está de acuerdo en que la situación fue estrechamente diseñada para favorecerla.
gung - Restablecer Monica
0

Los efectos exactos dependerán del modelo y la "verdad" que, por supuesto, no podemos saber. Puede ver los efectos de paso a paso en cualquier caso particular mediante la validación cruzada o el uso de un enfoque simple de tren y prueba.

Peter Flom
fuente