XGBoost puede manejar datos faltantes en la fase de pronóstico

11

Recientemente he revisado el algoritmo XGBoost y he notado que este algoritmo puede manejar datos faltantes (sin requerir imputación) en la fase de entrenamiento. Me preguntaba si XGboost puede manejar los datos faltantes (sin requerir imputación) cuando se usa para pronosticar nuevas observaciones o si es necesario imputar los datos faltantes.

Gracias por adelantado.

Ricardo UES
fuente

Respuestas:

14

xgboost decide en el momento del entrenamiento si los valores faltantes van al nodo derecho o izquierdo. Elige cuál minimizar la pérdida. Si no hay valores faltantes en el momento del entrenamiento, el valor predeterminado es enviar cualquier falta nueva al nodo correcto.

Si hay una señal en la distribución de sus faltas, entonces este es esencialmente el modelo.

Tenga cuidado si sus datos de puntuación tienen sus valores faltantes distribuidos de manera diferente a sus datos de entrenamiento. El manejo perdido de xgboost es conveniente pero no protege contra el enmascaramiento.

Fuente: esta respuesta

Dex Groves
fuente