No confunda el manejo de los predictores (a través de aprendices base, por ejemplo, tocones) y el manejo de la función de pérdida en el impulso. Aunque se puede pensar que AdaBoost encuentra combinaciones de aprendices básicos para minimizar el error de clasificación errónea, el documento de "Regresión logística aditiva" que usted cita muestra que también puede formularse para minimizar una función de pérdida exponencial. Esta información abrió el enfoque de refuerzo a una amplia clase de problemas de aprendizaje automático que minimizan las funciones de pérdida diferenciables, a través del aumento de gradiente . Los residuos que se ajustan en cada paso son seudo residuales calculados a partir del gradiente de la función de pérdida. Incluso si los predictores se modelan como tocones binarios, la salida del modelo no necesita ser una elección binaria.
Como dice otra respuesta, los aprendices de base lineal pueden no funcionar para impulsar, pero los aprendices de base lineal no son necesarios para una "regresión potenciada" en el sentido estándar o logístico. Decididamente, los tocones no lineales se pueden combinar como aprendices de base lenta para minimizar las funciones de pérdida apropiadas. Todavía se llama "regresión aumentada" a pesar de que está lejos de ser un modelo de regresión estándar lineal en los coeficientes de los predictores. La función de pérdida puede ser funcionalmente la misma para modelos lineales y modelos de "regresión aumentada" con tocones o árboles como predictores. El Capítulo 8 de ISLR lo deja bastante claro.
Entonces, si desea una regresión logística equivalente a una regresión potenciada, concéntrese en la función de pérdida en lugar de en los alumnos de base. Eso es lo que hace el enfoque LogitBoost en el documento que cita: minimizar una pérdida de registro en lugar de la pérdida exponencial implícita en adaboost. La página Wikipedia AdaBoost describe esta diferencia.
Muchos participantes en este sitio argumentarían que una predicción basada en probabilidades de registro / probabilidad es altamente preferible a una predicción estricta de clasificación sí / no, ya que la primera generalmente permite diferentes compensaciones entre los costos adicionales de las predicciones falsas positivas y falsas negativas . Como lo indica la respuesta a su pregunta relacionada , es posible obtener probabilidades estimadas del clasificador fuerte derivado de AdaBoost, pero LogitBoost puede brindar un mejor rendimiento.
Las implementaciones de aumento de gradiente para la clasificación pueden proporcionar información sobre las probabilidades subyacentes. Por ejemplo, esta página sobre aumento de gradiente muestra cómo el sklearn
código permite elegir entre la pérdida de desviación para la regresión logística y la pérdida exponencial de AdaBoost, y documenta las funciones para predecir las probabilidades del modelo impulsado por gradiente.
De hecho, tenemos una pregunta muy similar aquí sobre el caso de regresión. Y tuvimos una muy buena respuesta de @Matthew Drury
Aumento de gradiente para regresión lineal: ¿por qué no funciona?
El modelo lineal (como la regresión logística) no es bueno para impulsar. La razón es que si agrega dos modelos lineales, el resultado es otro modelo lineal. Por otro lado, agregar dos tocones o árboles de decisión tendrá un modelo más complicado e interesante (ya no es un árbol).
Los detalles se pueden encontrar en esta publicación. En este enlace deduje por qué agregar dos modelos lineales no es interesante. Y estoy mostrando el efecto de aumentar en la decisión tocón iteración por iteración.
¿Cómo funciona el aprendiz de base lineal para impulsar? ¿Y cómo funciona en la biblioteca xgboost?
Tenga en cuenta que el árbol / tocón de decisión no es un "modelo lineal" similar a la regresión logística.
Mire esta publicación para más detalles
¿Es un tocón de decisión un modelo lineal?
fuente