Encontré muchos artículos que afirman que los métodos de impulso son sensibles a los valores atípicos, pero ningún artículo explica por qué.
En mi experiencia, los valores atípicos son malos para cualquier algoritmo de aprendizaje automático, pero ¿por qué los métodos de refuerzo son especialmente sensibles?
¿Cómo clasificarían los siguientes algoritmos en términos de sensibilidad a los valores atípicos: árbol de impulso, bosque aleatorio, red neuronal, SVM y métodos de regresión simples como la regresión logística?
Respuestas:
Los valores atípicos pueden ser malos para aumentar porque aumentar genera cada árbol en los residuos / errores de los árboles anteriores. Los valores atípicos tendrán residuos mucho más grandes que los no valores atípicos, por lo que el aumento de gradiente centrará una cantidad desproporcionada de su atención en esos puntos.
fuente
Los algoritmos que especificó son para clasificación, por lo que supongo que no se refiere a valores atípicos en la variable de destino, sino a valores atípicos de variables de entrada. Los métodos de árbol impulsado deben ser bastante robustos para los valores atípicos en las características de entrada, ya que los alumnos base son divisiones de árbol. Por ejemplo, si la división es
x > 3
5 y 5,000,000 son tratados de la misma manera. Esto puede o no ser algo bueno, pero esa es una pregunta diferente.Si, en cambio, estaba hablando de regresión y valores atípicos en la variable objetivo, entonces la sensibilidad de los métodos de árbol impulsado dependería de la función de costo utilizada. Por supuesto, el error al cuadrado es sensible a los valores atípicos porque la diferencia es al cuadrado y eso influirá en gran medida en el próximo árbol, ya que aumenta los intentos de ajustar la (gradiente de la) pérdida. Sin embargo, hay funciones de error más robustas que se pueden usar para métodos de árbol potenciados como la pérdida de Huber y la pérdida absoluta.
fuente
Al impulsar, tratamos de elegir el conjunto de datos en el que los resultados del algoritmo fueron pobres en lugar de elegir aleatoriamente el subconjunto de datos. Estos ejemplos difíciles son importantes para aprender, por lo que si el conjunto de datos tiene muchos valores atípicos y el algoritmo no funciona bien en esos ejemplos, el algoritmo de ejemplos difíciles intentará elegir subconjuntos con esos ejemplos.
fuente