¿Cuáles son las garantías teóricas de embolsado?

El principal caso de uso para el embolsado es la reducción de la varianza de los modelos poco sesgados al agruparlos. Esto fue estudiado empíricamente en el documento histórico " Una comparación empírica de algoritmos de clasificación de votación: embolsado, aumento y variantes " por Bauer y Kohavi . Por lo general, funciona como se anuncia.

Sin embargo, contrario a la creencia popular, no se garantiza que el embolsado reduzca la variación . Una explicación más reciente y (en mi opinión) mejor es que el embolsado reduce la influencia de los puntos de apalancamiento. Los puntos de apalancamiento son aquellos que afectan desproporcionadamente el modelo resultante, como los valores atípicos en la regresión de mínimos cuadrados. Es raro pero posible que los puntos de apalancamiento influyan positivamente en los modelos resultantes, en cuyo caso el embolsado reduce el rendimiento. Echa un vistazo a "El embolsado iguala la influencia " de Grandvalet .

Entonces, para responder finalmente a su pregunta: el efecto del embolsado depende en gran medida de los puntos de apalancamiento. Existen pocas garantías teóricas, ¡excepto que el embolsado aumenta linealmente el tiempo de cálculo en términos de tamaño de la bolsa! Dicho esto, sigue siendo una técnica muy utilizada y muy poderosa. Cuando se aprende con ruido de etiquetas, por ejemplo, el ensacado puede producir clasificadores más robustos .

Rao y Tibshirani han dado una interpretación bayesiana en " El método fuera de lugar para promediar y seleccionar modelos " :

En este sentido, la distribución bootstrap representa una distribución posterior (aproximada) no paramétrica, no informativa para nuestro parámetro. Pero esta distribución de arranque se obtiene sin dolor, sin tener que especificar formalmente un previo y sin tener que tomar muestras de la distribución posterior. Por lo tanto, podríamos pensar en la distribución de bootstrap como "Bayes posterior" de un hombre pobre.

Marc Claesen
fuente

¿Cómo se aplica la explicación de los 'puntos de apalancamiento' a los árboles, que a menudo se recomiendan para el ensacado? Si bien está claro qué puntos de alto apalancamiento son para la regresión lineal, ¿cuáles son estos puntos para los árboles?

DavidR

Encontré otra referencia a esta pregunta: quora.com/… ¿Qué piensas? ¿Contradice esto el hecho de que dijo que no reduce la varianza teóricamente?

Charlie Parker

Vi que Wikipedia dice que el embolsado (también conocido como agregación de bootstrap) reduce la varianza. Si no hay evidencia teórica de esto, ¿significa esto que el artículo está equivocado?

Charlie Parker

En la mayoría de los casos, el embolsado tiene una variación menor, pero ese no es su mecanismo real. Grandvalet ha mostrado ejemplos en los que aumenta la varianza, e ilustra que el mecanismo está más relacionado con la influencia de los puntos de datos que afectan fuertemente el modelo, como los valores atípicos en la regresión de mínimos cuadrados, que en la mayoría de los casos reduce la varianza.

Marc Claesen

¿Cuáles son las garantías teóricas de embolsado?

Respuestas: