Ensemble Learning: ¿Por qué es eficaz el apilamiento de modelos?

Recientemente, me interesé en el apilamiento de modelos como una forma de aprendizaje conjunto. En particular, he experimentado un poco con algunos conjuntos de datos de juguetes para problemas de regresión. Básicamente, he implementado regresores individuales de "nivel 0", almacenado las predicciones de salida de cada regresor como una nueva característica para que un "meta-regresor" tome como entrada, y ajuste este meta-regresor en estas nuevas características (las predicciones del nivel 0 regresores). Me sorprendió mucho ver incluso mejoras modestas sobre los regresores individuales al probar el meta-regresor contra un conjunto de validación.

Entonces, esta es mi pregunta: ¿por qué es efectivo el apilamiento de modelos? Intuitivamente, esperaría que el modelo que realiza el apilamiento tenga un bajo rendimiento, ya que parece tener una representación de características empobrecida en comparación con cada uno de los modelos de nivel 0. Es decir, si entreno 3 regresores de nivel 0 en un conjunto de datos con 20 características, y utilizo las predicciones de estos regresores de nivel 0 como entrada para mi meta-regresor, esto significa que mi meta-regresor solo tiene 3 características para aprender. Parece que hay más información codificada en las 20 características originales que tienen los regresores de nivel 0 para el entrenamiento que las 3 características de salida que el meta-regresor usa para el entrenamiento.

machine-learning ensemble stacking kylerthecreator
fuente

Respuestas:

Piense en el ensamblaje como básicamente una explotación del teorema del límite central.

El teorema del límite central dice libremente que, a medida que aumenta el tamaño de la muestra, la media de la muestra se convertirá en una estimación cada vez más precisa de la ubicación real de la media de la población (suponiendo que esa sea la estadística que está viendo), y la varianza se ajustará .

Si tiene un modelo y produce una predicción para su variable dependiente, esa predicción probablemente será alta o baja en algún grado. Pero si tiene 3 o 5 o 10 modelos diferentes que producen predicciones diferentes, para cualquier observación dada, las predicciones altas de algunos modelos tenderán a compensar los errores bajos de algunos otros modelos, y el efecto neto será una convergencia del promedio (u otra combinación) de las predicciones hacia "la verdad". No en cada observación, pero en general esa es la tendencia. Y así, en general, un conjunto superará al mejor modelo individual.

Doug Dame
fuente