Obtuve tres modelos reducidos de un modelo completo original usando
- selección hacia adelante
- eliminación hacia atrás
- Técnica de penalización L1 (LASSO)
Para los modelos obtenidos usando la selección hacia adelante / eliminación hacia atrás, obtuve la estimación validada cruzada del error de predicción usando el CVlm
paquete DAAG
disponible en R
. Para el modelo seleccionado a través de LASSO, utilicé cv.glm
.
El error de predicción para LASSO fue menor que el obtenido para los otros. Entonces, el modelo obtenido a través de LASSO parece ser mejor en términos de su capacidad predictiva y variabilidad. ¿Es este un fenómeno general que siempre ocurre o es un problema específico? ¿Cuál es el razonamiento teórico para esto si se trata de un fenómeno general?
cross-validation
model-selection
lasso
stepwise-regression
usuario41512
fuente
fuente
Respuestas:
La selección del modelo LASSO y hacia adelante / hacia atrás tiene fortalezas y limitaciones. No se puede hacer una recomendación exhaustiva. La simulación siempre se puede explorar para abordar esto.
El sobreajuste se remedia utilizando la validación cruzada de muestras divididas (CV) para la evaluación del modelo. Como no describiste esto, supongo que no lo hiciste. A diferencia de la selección de modelo por pasos, LASSO utiliza un parámetro de ajuste para penalizar el número de parámetros en el modelo. Puede corregir el parámetro de ajuste o utilizar un proceso iterativo complicado para elegir este valor. Por defecto , LASSO hace lo último. Esto se hace con CV para minimizar el MSE de predicción. No conozco ninguna implementación de selección de modelo por pasos que use técnicas tan sofisticadas, incluso el BIC como criterio sufriría un sesgo de validación interna. Según mi cuenta, eso automáticamente le da a LASSO influencia sobre la selección de modelos "listos para usar".
Por último, la selección de modelos por pasos puede tener diferentes criterios para incluir / excluir diferentes regresores. Si usa los valores p para la prueba de Wald de los parámetros del modelo específico o el modelo resultante R ^ 2, no lo hará bien, principalmente debido al sesgo de validación interno (nuevamente, podría remediarse con CV). Me parece sorprendente que esta sea la forma en que estos modelos tienden a implementarse. AIC o BIC son criterios mucho mejores para la selección del modelo.
Hay varios problemas con cada método. Los problemas de selección de modelos paso a paso se entienden mucho mejor, y son mucho peores que los de LASSO. El principal problema que veo con su pregunta es que está utilizando herramientas de selección de funciones para evaluar la predicción . Son tareas distintas. LASSO es mejor para la selección de características o la selección de modelos dispersos. La regresión de cresta puede dar una mejor predicción ya que utiliza todas las variables.
fuente
Desea elegir un subconjunto de predictores de acuerdo con algunos criterios. Puede ser AIC en muestra o R ^ 2 ajustado, o validación cruzada, no importa.
Puede probar cada combinación de subconjunto de predictores y elegir el mejor subconjunto. sin embargo
Puede usar la selección progresiva hacia adelante
Podrías usar la eliminación hacia atrás
Podrías usar LASSO
En cuanto a su pregunta de por qué LASSO funciona mejor en sus datos en CV
En pocas palabras, LASSO le ofrece regularización y una selección eficiente de subconjuntos, especialmente cuando tiene muchos predictores.
Por cierto, puede hacer LASSO y seleccionar su modelo usando CV (más común) pero también usando AIC o algún otro criterio. Ejecute su modelo con regularización L1 y sin restricciones, luego apriete gradualmente la restricción hasta que el AIC alcance un mínimo, o un error de CV, o el criterio de su elección. Ver http://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_model_selection.html
fuente