Clasificadores base para impulsar

8

Los algoritmos de refuerzo, como AdaBoost , combinan múltiples clasificadores 'débiles' para formar un solo clasificador más fuerte. Aunque en teoría el refuerzo debería ser posible con cualquier clasificador base, en la práctica parece que los clasificadores basados ​​en árboles son los más comunes.

¿Por qué es esto? ¿Qué propiedades de los clasificadores de árboles los hacen más adecuados para esta tarea? ¿Hay otros clasificadores básicos que también se beneficien mucho de la mejora? Pregunto teniendo en cuenta los problemas de clasificación, pero también me interesarían las respuestas sobre las aplicaciones de regresión.

Martin O'Leary
fuente

Respuestas:

10

Estoy bastante seguro de que tienes razón y que no hay ninguna razón que necesariamente requiera el uso de árboles de decisión en lugar de otros clasificadores. Dicho esto, creo que hay algunas razones por las que a menudo se usan. La velocidad es un factor: impulsar puede requerir la formación de muchos clasificadores. Si cada una es una red neuronal gigante de múltiples capas, todo el procedimiento será muy lento.

Más importante aún, creo que los árboles de decisión son "lo suficientemente buenos". Dado que toda la idea detrás de impulsar es agrupar clasificadores débiles , no hay un gran incentivo para agregar soluciones pesadas que podrían requerir más ajustes (por ejemplo, jugar con los hiperparámetros y el núcleo para SVM).

Finalmente, los árboles de impulso y decisión son, al menos en mi cabeza, algo conceptualmente similares (por ejemplo, agregar un nodo / construir un nuevo clasificador). Muchas de las cosas de aprendizaje del conjunto parecen usar árboles. Creo que podría tener un "bosque aleatorio" de aprendices de Naive Bayes si realmente quisiera.

Matt Krause
fuente
1
No estaba totalmente seguro de esto, pero este hilo llega a conclusiones similares: stats.stackexchange.com/questions/13597/…
Matt Krause
Creo que la velocidad puede ser algo así como un arenque rojo: la mayoría de las veces prefiero tener un clasificador más preciso que algo que sea un poco más rápido para entrenar. Después de todo, el tiempo de CPU es bastante barato hoy en día.
Martin O'Leary
Cierto, cierto, aunque el atractivo de impulsar es que puede obtener predicciones rápidas y precisas a partir de métodos que normalmente solo pueden proporcionar predicciones rápidas. Dicho esto, debería haberlos enfatizado en este orden: lo suficientemente bueno> velocidad> lo que sea que esté pasando en mi cabeza :-)
Matt Krause
Veo lo que estás diciendo, pero sigo sintiendo que "lo suficientemente bueno" es una respuesta un poco insatisfactoria. Sin embargo, sí entiendo su punto de vista sobre la falta de juguetear con hiperparámetros.
Martin O'Leary
9

Hay algunas características que pueden agregar información para comprender los métodos de conjunto.

Harpillera

Probablemente, el método de conjunto más simple, el empaquetamiento, que no es más que una colección de clasificadores homogéneos similares basados ​​en datos de entrenamiento muestreados y mantenidos unidos por un método combinado, mejora la varianza causada por la inestabilidad en los clasificadores base al promediar sus resultados. El conjunto aprovecha esta inestabilidad para abordar el componente de varianza del error del clasificador base y, en menor grado, su sesgo.

Puede pensar que el embolsado proporciona un grado significativo de suavizado a lo que de otro modo sería un clasificador base "débil" muy inestable. Una razón, aparte de su tendencia a la eficiencia computacional, es por qué los clasificadores débiles son elegidos porque exhiben una mayor diversidad, que Es una característica beneficiosa para los conjuntos.

Si visualiza un conjunto empaquetado lleno de clasificadores estables muy fuertes, tendrán un alto grado de acuerdo sobre sus clasificaciones de ejemplos presentados al conjunto. En efecto, todos votan de la misma manera. Un comité en el que todos los miembros votan de manera similar tiene poca utilidad sobre cualquier miembro individual del comité.

Entonces, para trabajar de manera efectiva, un conjunto debe abarcar un grado de diversidad entre sus miembros. Claramente, un comité de miembros que arrojan opiniones casi al azar tampoco es de gran utilidad. Por lo tanto, se busca una posición intermedia entre estos extremos.

En la práctica, dado que no existe una teoría completa sobre el tema, este compromiso se encuentra utilizando métodos empíricos como la validación cruzada o los ensayos prolongados. Estos se utilizan para medir una resistencia adecuada para el clasificador base.

Debido a que esta búsqueda de un conjunto óptimo normalmente implicará ajustar los parámetros de los clasificadores base y el conjunto en sí, es deseable que el número de tales parámetros se mantenga lo más pequeño posible. Si no, la dimensionalidad del espacio de búsqueda de parámetros rápidamente significa que encontrar el mínimo global es computablemente intratable. Los árboles de decisión son una opción popular porque, como se ha mencionado, se pueden usar de manera efectiva sin necesariamente ajustar ninguno de sus parámetros.

Bosques al azar

Los bosques aleatorios, que son principalmente árboles de decisión en bolsas, aprovechan la inestabilidad significativa de los árboles mediante la inyección de un componente estocástico fuerte [las permutaciones de un pequeño número de características / factores en cada nodo de decisión dentro de un árbol] para crear diversidad dentro del conjunto. Debido a que cada nodo de un árbol se presenta con una nueva selección aleatoria de características, los árboles son muy diversos. El conjunto tiene el efecto de promediar la varianza y el sesgo de la diversa colección de árboles.

Para ser efectivo, un "bosque aleatorio" de clasificadores ingenuos de Bayes, o cualquier otro clasificador base estable como los SVM, necesita la adición de elementos estocásticos. Para los clasificadores estables, las variaciones relativamente pequeñas en los datos de entrenamiento, como las derivadas del ensacado, conducen a clasificadores muy similares.

Para aumentar la diversidad, se podrían aplicar otros enfoques. Por ejemplo, permutando las características que se muestran a cada clasificador base. Esto tiene una restricción de que la gran diversidad disponible se mantiene en el número de combinaciones del conjunto de características. Una vez que las combinaciones se han agotado, no hay nuevos clasificadores disponibles para el conjunto que votarían de manera diferente a los miembros existentes.

Para problemas con relativamente pocas características, esto limita severamente el grupo disponible de clasificadores. Sería posible inyectar más fuentes de aleatoriedad, por ejemplo, submuestreando agresivamente los datos de entrenamiento. La evidencia parece ser que, en el caso general, este enfoque es inferior a la combinación particular de sesgo y diversidad que ofrece un bosque aleatorio.

Es posible utilizar con éxito otros clasificadores de bases inestables, como los perceptrones multicapa (redes neuronales) que tienen pocos nodos y cantidades restringidas de entrenamiento o enfoques de relleno de espacios basados ​​en puntos, por ejemplo, discriminación estocástica, para inyectar diversidad en los métodos de conjuntos. Ciertamente, en el caso de MLP, un grado de ajuste de parámetros es esencial.

Impulsar

Boosting adopta un enfoque diferente para construir el conjunto que el modelo aglomerativo simple adoptado por Bagging. Supongo que, conceptualmente, si piensas que el embolsado es un modelo de conjunto plano, el refuerzo construye un clasificador en capas.

Cada ronda de refuerzo elige un nuevo clasificador de un conjunto de clasificadores potenciales construidos a partir de datos de entrenamiento ponderados o muestreados de acuerdo con las clasificaciones erróneas de la ronda anterior. El nuevo clasificador se selecciona para minimizar el error total del conjunto.

Esto está en marcado contraste con la falta de criterios de selección resentidos en la construcción aleatoria de conjuntos forestales. Cada nuevo clasificador base se requiere específicamente para centrarse en los puntos débiles del conjunto existente, con el resultado de que impulsar agresivamente reduce el error de entrenamiento.

En las primeras etapas de la construcción de conjuntos, el refuerzo tiene pocos clasificadores débiles y cada uno se enfoca en diferentes áreas del espacio de entrenamiento, el efecto de esto es reducir principalmente el sesgo. A medida que crece el tamaño del conjunto, disminuye el alcance de la reducción de sesgo y se mejora el error de la varianza.

El beneficio de la inestabilidad en el clasificador base para aumentar es que a medida que crece el conjunto, el número de ejemplos restantes mal clasificados disminuye. Se necesita un mayor grado de diversidad para generar un clasificador que adopte una vista útil diferente de las muestras restantes que sus predecesoras.

El poder de este enfoque se puede ver en el hecho de que se pueden lograr resultados aceptables solo con tocones de decisión, aunque los MLP han demostrado ser muy efectivos en general.

Debido a este enfoque constante en los ejemplos mal clasificados, la debilidad del aumento es que puede ser susceptible al ruido, en cierta medida los intentos de logitboost para abordar esta falla.

No hay almuerzo gratis

Vale la pena recordar que no existe una gran teoría unificada del aprendizaje automático y que los resultados de cualquier clasificador particular dependen en gran medida del tipo de datos con los que se utiliza. Entonces, a priori, no hay ninguna razón dura y rápida para afirmar que un tipo de clasificador sea superior a otro, aparte del consenso derivado de la experimentación previa con datos similares y la utilidad general que muestra un algoritmo en una variedad de conjuntos de datos. Para obtener una buena solución, es posible que desee experimentar con un puñado de enfoques populares.

image_doctor
fuente
+1 por mencionar la NFL, pero diría que la NFL es la 'gran teoría unificada' del aprendizaje automático, o lo más parecido a lo que probablemente veamos ...
John Doucette