Del tutorial de XGBoost, creo que cuando crece cada árbol, se escanean todas las variables para seleccionarlas para dividir los nodos, y se elegirá la que tenga la división de ganancia máxima. Entonces, mi pregunta es: ¿qué sucede si agrego algunas variables de ruido en el conjunto de datos, estas variables de ruido influirían en la selección de variables (para cada árbol en crecimiento)? Mi lógica es que debido a que estas variables de ruido NO dan una división de ganancia máxima, entonces nunca se seleccionarían, por lo que no influyen en el crecimiento del árbol.
Si la respuesta es sí, ¿es cierto que "cuantas más variables, mejor para XGBoost"? No consideremos el tiempo de entrenamiento.
Además, si la respuesta es sí, entonces es cierto que "no necesitamos filtrar variables no importantes del modelo".
¡Gracias!
fuente