Creo que entiendo cómo funcionan los fundamentos del bootstrapping , pero no estoy seguro de entender cómo puedo usar el bootstrapping para la selección del modelo o para evitar el sobreajuste.
Para la selección del modelo, por ejemplo, ¿elegiría el modelo que produce el error más bajo (¿tal vez una variación?) En sus muestras de arranque?
¿Hay algún texto que discuta cómo usar bootstrapping para la selección o validación del modelo?
EDITAR: vea este hilo y la respuesta de @ mark999 para obtener más contexto detrás de esta pregunta.
model-selection
cross-validation
bootstrap
Amelio Vazquez-Reina
fuente
fuente
Respuestas:
Primero debe decidir si realmente necesita la selección del modelo, o simplemente necesita modelar. En la mayoría de las situaciones, dependiendo de la dimensionalidad, se prefiere ajustar un modelo integral flexible.
El bootstrap es una excelente manera de estimar el rendimiento de un modelo. Lo más simple de estimar es la varianza. Además de su punto original, el programa de arranque puede estimar el rendimiento futuro probable de un procedimiento de modelado dado, en datos nuevos que aún no se han realizado.
Si usa el remuestreo (bootstrap o validación cruzada) para elegir los parámetros de ajuste del modelo y para estimar el modelo, necesitará un bootstrap doble o una validación cruzada anidada.
En general, el bootstrap requiere menos ajustes del modelo (a menudo alrededor de 300) que la validación cruzada (la validación cruzada 10 veces debe repetirse 50-100 veces para la estabilidad).
Algunos estudios de simulación se pueden encontrar en http://biostat.mc.vanderbilt.edu/rms
fuente
Considere usar el bootstrap para promediar modelos .
El siguiente documento podría ayudar, ya que compara un enfoque de promedio de modelo bootstrap con (¿el más utilizado?) El promedio de modelado bayesiano y presenta una receta para realizar el promedio de modelo.
Promedio del modelo Bootstrap en estudios de series temporales de contaminación y mortalidad del aire por partículas
fuente