Bootstrapping es cualquier prueba o métrica que se basa en un muestreo aleatorio con reemplazo. Es un método que ayuda en muchas situaciones, como la validación del rendimiento de un modelo predictivo, métodos de conjunto, estimación de sesgo y varianza del parámetro de un modelo, etc. Funciona mediante realizar un muestreo con reemplazo del conjunto de datos original y, al mismo tiempo, asumir que los puntos de datos que no se han elegido son el conjunto de datos de prueba. Podemos repetir este procedimiento varias veces y calcular el puntaje promedio como una estimación del rendimiento de nuestro modelo. Además, Bootstrapping está relacionado con los métodos de entrenamiento de conjunto, porque podemos construir un modelo usando cada conjunto de datos de bootstrap y "empacar" estos modelos en un conjunto usando el voto mayoritario (para clasificación) o computando el promedio (para predicciones numéricas) para todos Estos modelos como nuestro resultado final.
La validación cruzada es un procedimiento para validar el rendimiento de un modelo, y se realiza dividiendo los datos de entrenamiento en k partes. Asumimos que las partes k-1 son el conjunto de entrenamiento y utilizamos la otra parte es nuestro conjunto de prueba. Podemos repetir que k veces de manera diferente manteniendo una parte diferente de los datos cada vez. Finalmente, tomamos el promedio de los puntajes k como nuestra estimación de rendimiento. La validación cruzada puede sufrir sesgos o variaciones. Al aumentar el número de divisiones, la varianza también aumentará y el sesgo disminuirá. Por otro lado, si disminuimos el número de divisiones, el sesgo aumentará y la varianza disminuirá.
En resumen, la validación cruzada divide el conjunto de datos disponible para crear múltiples conjuntos de datos, y el método Bootstrapping usa el conjunto de datos original para crear múltiples conjuntos de datos después del remuestreo con reemplazo. Bootstrapping no es tan fuerte como la validación cruzada cuando se usa para la validación del modelo. Bootstrapping tiene más que ver con la construcción de modelos de conjuntos o simplemente con la estimación de parámetros.
Christos Karatsalos
fuente
fuente