Cuando utilicé bootstrapping para la evaluación del modelo, siempre pensé que las muestras fuera de bolsa se usaban directamente como un conjunto de prueba. Sin embargo, este no parece ser el caso del enfoque obsoleto de scikit-learnBootstrap
, que parece construir el conjunto de prueba a partir del dibujo con reemplazo del subconjunto de datos fuera de la bolsa. ¿Cuál es el razonamiento estadístico detrás de esto? ¿Existen escenarios específicos en los que esta técnica es mejor que simplemente evaluar en la muestra de bolsa o viceversa?
15
Respuestas:
Las muestras de Bootstrap se utilizan para evaluar el rendimiento del algoritmo mediante muchas iteraciones. Al hacerlo, se evalúa el rendimiento en conjuntos cambiados al azar.
En contraste, cuando se realiza, por ejemplo, la validación cruzada de 10 pliegues, solo realiza 10 iteraciones en diferentes conjuntos de datos de tren y prueba.
El enlace que postet está inactivo, así que agregué la descripción de la función en la versión actual (0.14) de sklearn
Descripción del método.
fuente
Quizás estabas en algo. Parece que otros tiraron de ese mismo hilo y
Bootstrap
fueron desaprobados a favor de un uso más intencional delresample
método con lossklearn.cross_validation
enfoques probados y verdaderos comoStratifiedKFold
.fuente