Preguntas:
- ¿Cuál es la diferencia (s) entre los árboles de regresión potenciados (BRT) y los modelos potenciados generalizados (GBM)? ¿Se pueden usar indistintamente? ¿Es una una forma específica de la otra?
- ¿Por qué Ridgeway usó la frase "Modelos de regresión aumentada generalizada" (GBM) para describir lo que Friedman había propuesto previamente como "Máquina de aumento gradiente" (GBM)? Estos dos acrónimos son idénticos, describen lo mismo, pero se derivan de diferentes frases.
Antecedentes:
Tengo problemas para determinar cómo difieren los términos BRT y GBM. Por lo que entiendo, ambos son términos para describir árboles de clasificación y regresión que tienen la estocasticidad incorporada a través de algún tipo de refuerzo (por ejemplo, embolsado, arranque, validación cruzada). Además, por lo que deduzco, el término GBM fue acuñado por primera vez por Friedman (2001) en su artículo "Aproximación de la función codiciosa: una máquina de aumento de gradiente". Luego, Ridgeway implementó el procedimiento descrito por Friedman en 2006 en su paquete "Modelos de regresión potenciada generalizada" (GBM). En mi campo (ecología) Elith et al. (2008) fue el primero en demostrar el gbm
paquete de Ridgeway para el modelado de distribución de especies. Sin embargo, los autores en Elith et al. use el término "árbol de regresión impulsado" (BRT) para describir Friedman y Ridgeway '
¿Estoy confundido acerca de si estos términos se pueden usar indistintamente? Es algo confuso que un autor use el mismo acrónimo (de una frase diferente) para describir la misma teoría que propuso un autor anterior. También es confuso que el tercer autor usó un término completamente diferente al describir esta teoría en términos ecológicos.
Lo mejor que se me ocurre es que los BRT son una forma específica de GBM en la que la distribución es binomial, pero no estoy seguro de esto.
Elith y col. defina árboles de regresión potenciados como este ... "Los árboles de regresión potenciados combinan las fortalezas de dos algoritmos: árboles de regresión (modelos que relacionan una respuesta a sus predictores mediante divisiones binarias recursivas) y refuerzo (un método adaptativo para combinar muchos modelos simples para brindar un mejor rendimiento predictivo El modelo BRT final puede entenderse como un modelo de regresión aditiva en el que los términos individuales son árboles simples, ajustados de manera progresiva y progresiva "(Elith et al. 2008).
Respuestas:
Como @aginensky mencionó en el hilo de comentarios, es imposible meterse en la cabeza del autor, pero BRT probablemente sea simplemente una descripción más clara del
gbm
proceso de modelado que es, perdóneme por indicar los árboles de regresión y clasificación evidentes y mejorados. Y dado que ha preguntado sobre los árboles de aumento, gradientes y regresión, aquí están mis explicaciones simples en inglés de los términos. Para su información, CV no es un método de refuerzo, sino más bien un método para ayudar a identificar los parámetros óptimos del modelo a través del muestreo repetido. Vea aquí algunas excelentes explicaciones del proceso.Impulsar es un tipo de método de conjunto . Los métodos de conjunto se refieren a una colección de métodos mediante los cuales se hacen predicciones finales agregando predicciones de varios modelos individuales. Impulsar, embolsar y apilar son algunos métodos de conjunto ampliamente implementados. El apilamiento implica ajustar una cantidad de modelos diferentes individualmente (de cualquier estructura que elija) y luego combinarlos en un solo modelo lineal. Esto se hace ajustando las predicciones de los modelos individuales contra la variable dependiente. LOOCV SSE se usa normalmente para determinar los coeficientes de regresión y cada modelo se trata como una función básica (en mi opinión, esto es muy, muy similar a GAM). Del mismo modo, embolsadoimplica ajustar una serie de modelos estructurados de manera similar a muestras bootstrapped. A riesgo de declarar una vez más lo obvio, el apilamiento y el embolsado son métodos de conjunto paralelos.
Impulsar , sin embargo, es un método secuencial. Friedman y Ridgeway describen el proceso algorítmico en sus documentos, por lo que no lo insertaré aquí solo en este segundo, pero la versión simple en inglés (y algo simplificada) es que se ajusta un modelo tras otro, con cada modelo posterior buscando minimizar residuos ponderados por los errores del modelo anterior (el parámetro de contracción es el peso asignado al error residual de cada predicción de la iteración anterior y cuanto más pequeño pueda permitirse tenerlo, mejor). En un sentido abstracto, puede pensar en impulsar como un proceso de aprendizaje muy humano donde aplicamos experiencias pasadas a nuevas iteraciones de tareas que tenemos que realizar.
Ahora, la parte del gradiente proviene del método utilizado para determinar el número óptimo de modelos (referidos como iteraciones en la
gbm
documentación) que se utilizarán para la predicción a fin de evitar el sobreajuste.Como puede ver en la imagen anterior (esta fue una aplicación de clasificación, pero lo mismo es cierto para la regresión), el error CV cae bastante abruptamente al principio ya que el algoritmo selecciona aquellos modelos que conducirán a la mayor caída en el error CV antes de aplanarse y subiendo de nuevo cuando el conjunto comienza a adaptarse. El número de iteración óptimo es el que corresponde al punto de inflexión de la función de error CV (el gradiente de la función es igual a 0), que se ilustra convenientemente con la línea discontinua azul.
La
gbm
implementación de Ridgeway utiliza árboles de clasificación y regresión y, aunque no puedo afirmar que lea su mente, me imagino que la velocidad y la facilidad (por no mencionar su robustez para las travesuras de datos) con las que los árboles pueden encajar tuvieron un efecto bastante significativo en su elección de técnica de modelado. Dicho esto, aunque podría estar equivocado, no puedo imaginar una razón estrictamente teórica por la cual prácticamente ninguna otra técnica de modelado no podría haberse implementado. Nuevamente, no puedo afirmar que conozco la mente de Ridgeway, pero imagino la parte generalizada degbm
El nombre se refiere a la multitud de aplicaciones potenciales. El paquete se puede usar para realizar regresión (lineal, Poisson y cuantil), binomial (usando varias funciones de pérdida diferentes) y clasificación multinomial, y análisis de supervivencia (o al menos cálculo de la función de peligro si la distribución coxph es alguna indicación).El artículo de Elith parece vagamente familiar (creo que me encontré con él el verano pasado mientras buscaba métodos de visualización amigables con gbm) y, si la memoria funciona correctamente, presentaba una extensión de la
gbm
biblioteca, centrándose en el ajuste automático del modelo para la regresión (como en la distribución gaussiana , no binomiales) y generación de parcelas mejorada. Me imagino que la nomenclatura RBT está ahí para ayudar a aclarar la naturaleza de la técnica de modelado, mientras que GBM es más general.Espero que esto ayude a aclarar algunas cosas.
fuente