¿Cuáles son las garantías teóricas de embolsado?

17

He (aproximadamente) escuchado que:

El ensacado es una técnica para reducir la varianza de un algoritmo de predicción / estimador / aprendizaje.

Sin embargo, nunca he visto una prueba matemática formal de esta afirmación. ¿Alguien sabe por qué esto es matemáticamente cierto? Simplemente parece ser un hecho tan ampliamente aceptado / conocido, que esperaría una referencia directa a esto. Me sorprendería si no hay. Además, ¿alguien sabe qué efecto tiene esto en el sesgo?

¿Existen otras garantías teóricas de los enfoques de embolsado que alguien sabe y piensa que es importante y quiere compartirlo?

Charlie Parker
fuente

Respuestas:

21

El principal caso de uso para el embolsado es la reducción de la varianza de los modelos poco sesgados al agruparlos. Esto fue estudiado empíricamente en el documento histórico " Una comparación empírica de algoritmos de clasificación de votación: embolsado, aumento y variantes " por Bauer y Kohavi . Por lo general, funciona como se anuncia.

Sin embargo, contrario a la creencia popular, no se garantiza que el embolsado reduzca la variación . Una explicación más reciente y (en mi opinión) mejor es que el embolsado reduce la influencia de los puntos de apalancamiento. Los puntos de apalancamiento son aquellos que afectan desproporcionadamente el modelo resultante, como los valores atípicos en la regresión de mínimos cuadrados. Es raro pero posible que los puntos de apalancamiento influyan positivamente en los modelos resultantes, en cuyo caso el embolsado reduce el rendimiento. Echa un vistazo a "El embolsado iguala la influencia " de Grandvalet .

Entonces, para responder finalmente a su pregunta: el efecto del embolsado depende en gran medida de los puntos de apalancamiento. Existen pocas garantías teóricas, ¡excepto que el embolsado aumenta linealmente el tiempo de cálculo en términos de tamaño de la bolsa! Dicho esto, sigue siendo una técnica muy utilizada y muy poderosa. Cuando se aprende con ruido de etiquetas, por ejemplo, el ensacado puede producir clasificadores más robustos .

Rao y Tibshirani han dado una interpretación bayesiana en " El método fuera de lugar para promediar y seleccionar modelos " :

En este sentido, la distribución bootstrap representa una distribución posterior (aproximada) no paramétrica, no informativa para nuestro parámetro. Pero esta distribución de arranque se obtiene sin dolor, sin tener que especificar formalmente un previo y sin tener que tomar muestras de la distribución posterior. Por lo tanto, podríamos pensar en la distribución de bootstrap como "Bayes posterior" de un hombre pobre.

Marc Claesen
fuente
1
¿Cómo se aplica la explicación de los 'puntos de apalancamiento' a los árboles, que a menudo se recomiendan para el ensacado? Si bien está claro qué puntos de alto apalancamiento son para la regresión lineal, ¿cuáles son estos puntos para los árboles?
DavidR
Encontré otra referencia a esta pregunta: quora.com/… ¿Qué piensas? ¿Contradice esto el hecho de que dijo que no reduce la varianza teóricamente?
Charlie Parker
Vi que Wikipedia dice que el embolsado (también conocido como agregación de bootstrap) reduce la varianza. Si no hay evidencia teórica de esto, ¿significa esto que el artículo está equivocado?
Charlie Parker
En la mayoría de los casos, el embolsado tiene una variación menor, pero ese no es su mecanismo real. Grandvalet ha mostrado ejemplos en los que aumenta la varianza, e ilustra que el mecanismo está más relacionado con la influencia de los puntos de datos que afectan fuertemente el modelo, como los valores atípicos en la regresión de mínimos cuadrados, que en la mayoría de los casos reduce la varianza.
Marc Claesen