Parece que se ha convertido en axiomático que un conjunto de estudiantes conduce a los mejores resultados posibles del modelo, y cada vez es más raro, por ejemplo, que modelos individuales ganen competencias como Kaggle. ¿Existe una explicación teórica de por qué los conjuntos son tan efectivos?
machine-learning
data-mining
predictive-modeling
Robert de Graaf
fuente
fuente
Respuestas:
Para un modelo específico, alimente sus datos, elija las características, elija hiperparámetros, etc. En comparación con la realidad, comete tres tipos de errores:
Los conjuntos promedian varios de estos modelos. El sesgo debido al sesgo de muestreo no se solucionará por razones obvias, puede corregir parte del sesgo de complejidad del modelo, sin embargo, los errores de varianza que se cometen son muy diferentes en sus diferentes modelos. Los modelos especialmente correlacionados bajos cometen errores muy diferentes en estas áreas, ciertos modelos funcionan bien en ciertas partes de su espacio de características. Al promediar estos modelos, reduce bastante esta variación. Por eso brillan los conjuntos.
fuente
La respuesta seleccionada es fantástica, pero me gustaría agregar dos cosas:
fuente
Los conjuntos ganan en predicción por razones teóricas y prácticas.
Existe una teoría fundamental del pronóstico óptimo, si queremos decir predecir el próximo evento en una secuencia basada en el conocimiento de eventos anteriores. La predicción de Solomonoff (Solomonoff 1964) es demostrablemente óptima en varios sentidos, incluido que "aprenderá a predecir correctamente cualquier secuencia computable con solo la cantidad mínima absoluta de datos". (Hutter, Legg y Vitanyi 2007) Un predictor de Solomonoff pondera todos los programas compatibles con los datos existentes, de acuerdo con la complejidad de Kolmogorov del programa y la probabilidad de que el programa asigne a los datos hasta ahora, combinando filosofías epicúreas ("mantener todas las teorías") y Ockham ("prefiera las teorías simples") en un marco bayesiano.
Las propiedades de optimización de la predicción de Solomonoff explican el sólido hallazgo al que se refiere: promediar sobre modelos, fuentes o expertos mejora las predicciones, y las predicciones promedio superan incluso al mejor predictor individual. Los diversos métodos de conjunto vistos en la práctica pueden verse como aproximaciones computables a la predicción de Solomonoff, y algunos como MML (Wallace 2005) exploran explícitamente los lazos, aunque la mayoría no.
Wallace (2005) señala que un predictor de Solomonoff no es parsimonioso, mantiene un grupo infinito de modelos, pero la mayor parte del poder predictivo recae inevitablemente en un conjunto relativamente pequeño de modelos. En algunos dominios, el mejor modelo único (o familia de modelos casi indistinguibles) puede representar una gran parte del poder predictivo y superar a los conjuntos genéricos, pero en dominios complejos con poca teoría lo más probable es que ninguna familia individual capture la mayoría de la probabilidad posterior, y, por lo tanto, promediar sobre los candidatos plausibles debería mejorar las predicciones. Para ganar el premio de Netflix, el equipo de Bellkor combinó más de 450 modelos (Koren 2009).
Los humanos suelen buscar una buena explicación: en dominios de "alta teoría" como la física, funcionan bien. De hecho, si capturan la dinámica causal subyacente, deberían ser casi imbatibles. Pero cuando las teorías disponibles no se ajustan mucho a los fenómenos (por ejemplo, recomendación de películas o geopolítica), los modelos individuales tendrán un rendimiento inferior: todos están incompletos, por lo que ninguno debería dominar. De ahí el reciente énfasis en los conjuntos (para el aprendizaje automático) y Wisdom of the Crowds (para expertos), y el éxito de programas como IARPA ACE y específicamente el Good Judgment Project (Tetlock & Gardiner 2015).
Referencias
fuente