Una explicación intuitiva del algoritmo AdaBoost.
Permítanme construir sobre la excelente respuesta de @ Randel con una ilustración del siguiente punto
- En Adaboost, las "deficiencias" se identifican mediante puntos de datos de gran peso.
Resumen de AdaBoost
solmetro( X ) m = 1 , 2 , . . . , M
G ( x ) = signo ( α1sol1( x ) + α2sol2( x ) + . . . αMETROsolMETRO( x ) ) = signo ( ∑m = 1METROαmetrosolmetro( x ) )
AdaBoost en un ejemplo de juguete
METRO= 10
Visualizar la secuencia de alumnos débiles y los pesos de muestra.
m = 1 , 2 ... , 6
Primera iteración:
- El límite de decisión es muy simple (lineal) ya que estos son aprendices wea
- Todos los puntos son del mismo tamaño, como se esperaba
- 6 puntos azules están en la región roja y están mal clasificados
Segunda iteración:
- El límite de decisión lineal ha cambiado
- Los puntos azules previamente mal clasificados ahora son más grandes (mayor muestra_peso) y han influido en el límite de decisión
- 9 puntos azules ahora están mal clasificados
Resultado final después de 10 iteraciones.
αmetro
([1.041, 0.875, 0.837, 0.781, 1.04, 0.938 ...
Como se esperaba, la primera iteración tiene el coeficiente más grande, ya que es la que tiene menos clasificaciones erróneas.
Próximos pasos
Una explicación intuitiva del aumento de gradiente - para completar
Fuentes y lecturas adicionales:
Xavier Bourret Sicotte
fuente