Entiendo algunos de los muchos problemas de regresión gradual. Sin embargo, como un esfuerzo académico, suponga que quiero usar la regresión gradual para un modelo predictivo, y quiero comprender mejor los impactos que puede tener en el rendimiento.
Dado un modelo lineal, por ejemplo, ¿realizar una regresión escalonada en el modelo tiende a aumentar o disminuir el poder predictivo del modelo cuando se le presentan datos nuevos?
¿Hay algún impacto teórico que tendrá la regresión gradual en la capacidad predictiva?
La experiencia práctica también sería útil; quizás situaciones en las que la regresión gradual mejora la predicción y cuando no lo hace.
regression
predictive-models
stepwise-regression
Socavador
fuente
fuente
Respuestas:
Hay una variedad de problemas con la selección por pasos. Discutí paso a paso en mi respuesta aquí: Algoritmos para la selección automática de modelos . En esa respuesta, no me enfoqué principalmente en los problemas de inferencia, sino en el hecho de que los coeficientes están sesgados (los atletas que prueban son análogos a las variables). Debido a que los coeficientes se desvían de sus valores verdaderos, el error predictivo fuera de la muestra debe aumentarse, ceteris paribus.
Considere la noción del equilibrio de sesgo-varianza . Si piensa en la precisión de su modelo como la varianza de los errores de predicción (es decir, MSE:1 / n ∑ (yyo-y^yo)2 ), el error de predicción esperado es la suma de tres fuentes diferentes de variación:
Estos tres términos son la varianza de su estimación de la función, el cuadrado del sesgo de la estimación , y el error irreducible en el proceso de generación de datos, respectivamente. (Esto último existe porque los datos no son deterministas: nunca obtendrá predicciones más cercanas que eso en promedio). Las dos primeras provienen del procedimiento utilizado para estimar su modelo. Por defecto, podríamos pensar que OLS es el procedimiento utilizado para estimar el modelo, pero es más correcto decir que la selección por pasos sobre las estimaciones de OLS
Con esas ideas en mente, el punto de mi respuesta vinculado en la parte superior es que se induce un gran sesgo. En igualdad de condiciones, eso empeorará las predicciones de la muestra. Desafortunadamente, la selección por pasos no reduce la varianza de la estimación. En el mejor de los casos, su varianza es la misma, pero es muy probable que empeore la varianza también (por ejemplo, @Glen_b informa que solo el 15.5% de las veces fueron las variables correctas incluso elegidas en un estudio de simulación discutido aquí: ¿Por qué son valores p engañosos después de realizar una selección por pasos? ).
fuente
Los efectos exactos dependerán del modelo y la "verdad" que, por supuesto, no podemos saber. Puede ver los efectos de paso a paso en cualquier caso particular mediante la validación cruzada o el uso de un enfoque simple de tren y prueba.
fuente