¿Las técnicas de refuerzo usan la votación como cualquier otro método de conjunto?

8

¿Podemos generalizar todos los métodos de conjunto usando la votación? ¿Los métodos de impulso también usan la votación para llevar a los alumnos débiles al modelo final?

Mi comprensión de la técnica:

  • Impulso: agrega continuamente un alumno débil para aumentar los puntos de datos que no se clasificaron correctamente.
  • Técnica de conjunto: utiliza múltiples alumnos para obtener una mejor predicción que la de uno solo. Esto se explica en wikipedia.
pritywiz
fuente

Respuestas:

7

El impulso generalmente puede entenderse como votación (ponderada)

En el caso de impulsar, uno de sus inventores da una respuesta afirmativa en esta introducción a AdaBoost (énfasis mío):

La hipótesis final o combinada calcula el signo de una combinación ponderada de hipótesis débiles Esto es equivalente a decir que se calcula como un voto mayoritario ponderado de las hipótesis débiles donde cada uno tiene asignado peso . (En este capítulo, usamos los términos "hipótesis" y "clasificador" indistintamente).H

F(x)=t=1Tαtht(x)
H htαt

Entonces, sí, el modelo final devuelto es un voto ponderado de todos los estudiantes débiles capacitados para esa iteración. Del mismo modo, encontrará este fragmento en Wikipedia sobre el impulso en general:

Si bien el refuerzo no está limitado algorítmicamente, la mayoría de los algoritmos de refuerzo consisten en aprender iterativamente clasificadores débiles con respecto a una distribución y agregarlos a un clasificador fuerte final. Cuando se agregan, generalmente se ponderan de alguna manera que generalmente está relacionada con la precisión de los alumnos débiles.

También tenga en cuenta la mención de que los algoritmos de refuerzo originales utilizaban una "mayoría". La noción de votación está bastante arraigada en el impulso: su principio rector es mejorar un conjunto en cada iteración agregando un nuevo votante y luego decidir cuánto peso dar a cada voto.

Esta misma intuición conlleva el ejemplo del aumento de gradiente : en cada iteración encontramos un nuevo alumno ajustado a pseudo-residuales, luego optimizamos para decidir cuánto peso dar "voto" de .mhmγmhm

La extensión a todos los métodos de conjunto se ejecuta en contraejemplos

Tal como están las cosas, algunos encontrarían que incluso la noción de ponderación estira la metáfora de la votación. Al considerar si extender esta intuición a todos los métodos de aprendizaje en conjunto , considere este fragmento:

Los conjuntos combinan múltiples hipótesis para formar una (con suerte) mejor hipótesis. El término conjunto generalmente se reserva para métodos que generan múltiples hipótesis utilizando el mismo alumno base.

Y este sobre el ejemplo de método de apilamiento :

El apilamiento (a veces llamado generalización apilada) implica entrenar un algoritmo de aprendizaje para combinar las predicciones de varios otros algoritmos de aprendizaje. Primero, todos los otros algoritmos se entrenan con los datos disponibles, luego se entrena un algoritmo combinador para hacer una predicción final usando todas las predicciones de los otros algoritmos como entradas adicionales. Si se usa un algoritmo combinador arbitrario, el apilamiento puede representar teóricamente cualquiera de las técnicas de conjunto descritas en este artículo, aunque en la práctica, a menudo se usa un modelo de regresión logística de capa única como combinador.

Si está definiendo métodos de conjunto para incluir métodos de apilamiento con un combinador arbitrario, puede construir métodos que, en mi opinión, extiendan la noción de votar más allá de su límite. Es difícil ver cómo una colección de estudiantes débiles combinados a través de un árbol de decisión o una red neuronal puede verse como "votación". (Dejando de lado la también difícil pregunta de cuándo ese método podría resultar prácticamente útil).

Algunas introducciones describen conjuntos y votación como sinónimos; No estoy lo suficientemente familiarizado con la literatura reciente sobre estos métodos para decir cómo se aplican estos términos en general recientemente, pero espero que esta respuesta dé una idea de hasta dónde se extiende la noción de votación.

Sean Easter
fuente
Explique cómo se realiza la votación en la máquina de aumento de gradiente. Se agrega un alumno débil en cada iteración, entonces, ¿dónde está votando aquí? ¿Podemos generalizar la votación para utilizarla en todos los estímulos y también en todas las técnicas de conjunto?
pritywiz
1
A la primera pregunta, si sigue la descripción del aumento de gradiente aquí bajo "Algoritmo", encontrará al alumno final descrito como un objetivo ponderado de los alumnos débiles. En esencia, la metáfora de la votación es: en cada iteración, agrega un nuevo votante centrado en los pseudo residuales, luego optimiza para decidir cuánto peso le dará a este nuevo voto. γm
Sean Easter
1
Para el segundo, no creo que la metáfora de votación lleve agua para todos los métodos de conjunto. Si lee acerca del apilamiento como se describe en los ejemplos comunes aquí , encontrará que se puede usar un algoritmo combinador arbitrario, tratando las predicciones de otros estudiantes como entrada. Es difícil ver cómo se podría considerar, por ejemplo, un árbol de decisión como un mecanismo de votación entre los alumnos. ¿Eso es útil?
Sean Easter
4

Impulsar es diferente de embolsar (votar). No veo una manera de interpretar el impulso como "votación" (consulte mi edición para obtener detalles adicionales).

  • Votar (especialmente el voto mayoritario) generalmente significa una decisión combinada de clasificadores semanales "separados / menos correlacionados".

  • Al impulsar, estamos construyendo un clasificador sobre otro. Por lo tanto, no son "pares separados", pero uno es "menos débil que otro".

Mis respuestas aquí dan un desglose de impulso por iteraciones.

¿Cómo funciona la base lineal más delgada para aumentar? ¿Y cómo funciona en la biblioteca xgboost?

El ejemplo está tratando de aproximar una función cuadrática al aumentar el tocón de decisión.

  • Los primeros dos gráficos son la verdad básica y el modelo de impulso después de muchas iteraciones. Son trazados de contorno. Los ejes X e Y son dos características y el valor de la función se representa por color.

ingrese la descripción de la imagen aquí

  • Entonces estoy mostrando las primeras 4 iteraciones. Puede ver que no promediamos / votamos 4 modelos, sino que mejoramos el modelo en cada iteración.

ingrese la descripción de la imagen aquí


Después de ver otra respuesta, creo que la respuesta a esta pregunta depende de cómo definimos "votar". ¿Consideramos la suma ponderada como votación? En caso afirmativo, creo que aún podemos decir que el impulso puede generalizarse con la votación.

Haitao Du
fuente
Entiendo el impulso como lo explican correctamente, mientras que en Adaboost podemos decir que un voto mayoritario ponderado de todos los clasificadores débiles es el clasificador final, pero no es lo mismo en el caso de GBM. Entonces, no podemos generalizar la votación para usarla en todas las técnicas de conjunto, ¿no es así? Estoy perplejo ... y precisamente mi confusión ..
pritywiz
1
@pritywiz Creo que otra respuesta también es correcta. La palabra "votación" no está muy clara. La forma final de GBM sigue siendo aditiva con diferentes pesos. ¿Consideramos suma ponderada = votación?
Haitao Du