Estaba leyendo el material relacionado con XGBoost. Parece que este método no requiere ninguna escala variable ya que se basa en árboles y este puede capturar patrones complejos de no linealidad, interacciones. Y puede manejar variables numéricas y categóricas y también parece que las variables redundantes no afectan demasiado este método.
Por lo general, en el modelado predictivo, puede hacer una selección entre todas las funciones que tiene y también puede crear algunas funciones nuevas a partir del conjunto de funciones que tiene. Por lo tanto, seleccionar un subconjunto de características significa que cree que hay cierta redundancia en su conjunto de características; crear algunas características nuevas a partir del conjunto de características actual significa que realiza algunas transformaciones funcionales en sus características actuales. Entonces, estos dos puntos deben cubrirse en XGBoost. Entonces, ¿significa que para usar XGBoost, solo necesita elegir sabiamente esos parámetros de ajuste? ¿Cuál es el valor de hacer ingeniería de características usando XGBoost?
fuente
Respuestas:
Definamos primero la Ingeniería de características:
XGBoost hace (1) por ti. XGBoost no hace (2) / (3) por ti.
Así que todavía tienes que hacer ingeniería de características tú mismo. Solo un modelo de aprendizaje profundo podría reemplazar la extracción de características por usted.
fuente
fuente
Rendimiento tal vez?
(Tenga en cuenta que no usamos XGBoost, sino otra biblioteca de aumento de gradiente, aunque el rendimiento de XGBoost probablemente también depende de alguna manera de la dimensionalidad de los datos).
Tenemos un conjunto de datos donde cada elemento consta de 3 señales, cada una de 6000 muestras de largo, es decir, 18k características. El uso de estas funciones directamente lleva años (días), por lo que realizamos una ingeniería manual de funciones para reducir el número de funciones a aproximadamente 200. Ahora la capacitación (incluida la optimización de parámetros) es cuestión de unas pocas horas.
A modo de comparación: hace poco tiempo también comenzamos a entrenar ConvNets con los mismos datos y las características completas de 18k (sin ingeniería de características). Alcanzan la misma precisión que los modelos de aumento de gradiente después de solo 2 horas de entrenamiento.
fuente
Esta es probablemente la mejor respuesta a su pregunta de los chicos que usan demasiado de xgboost y apilamiento: http://blog.kaggle.com/2017/03/17/outbrain-click-prediction-competition-winners-interview-2nd -place-team-brain-afk-darragh-marios-mathias-alexey /
fuente