Preguntas etiquetadas con xgboost

Para preguntas relacionadas con el algoritmo eXtreme Gradient Boosting.

37
¿Cómo interpretar la salida de importancia XGBoost?

Ejecuté un modelo xgboost. No sé exactamente cómo interpretar la salida de xgb.importance. ¿Cuál es el significado de ganancia, cobertura y frecuencia y cómo los interpretamos? Además, ¿qué significa Split, RealCover y RealCover%? Tengo algunos parámetros extra aquí ¿Hay algún otro parámetro que...

29
¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

27
Parámetros de Hypertuning XGBoost

XGBoost ha estado haciendo un gran trabajo cuando se trata de lidiar con variables dependientes categóricas y continuas. Pero, ¿cómo selecciono los parámetros optimizados para un problema de XGBoost? Así es como apliqué los parámetros para un problema reciente de Kaggle: param <- list(...

25
LightGBM vs XGBoost

Estoy tratando de entender cuál es mejor (más preciso, especialmente en problemas de clasificación) He estado buscando artículos que comparan LightGBM y XGBoost pero encontré solo dos: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 , que...

14
Pandas Dataframe a DMatrix

Estoy tratando de ejecutar xgboost en scikit learn. Y solo uso Pandas para cargar datos en el marco de datos. ¿Cómo se supone que debo usar pandas df con xgboost? Estoy confundido por la rutina DMatrix requerida para ejecutar xgboost

12
¿Cuántas celdas LSTM debo usar?

¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time...

12
Importancia de la característica con características categóricas de alta cardinalidad para la regresión (variable de representación numérica)

Intenté usar las características de las características de los bosques aleatorios para realizar una selección empírica de características para un problema de regresión donde todas las características son categóricas y muchas de ellas tienen muchos niveles (del orden de 100-1000). Dado que la...

11
¿Hay algún buen modelo de lenguaje listo para usar para Python?

Estoy creando prototipos de una aplicación y necesito un modelo de lenguaje para calcular la perplejidad en algunas oraciones generadas. ¿Hay algún modelo de lenguaje entrenado en Python que pueda usar fácilmente? Algo simple como model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
¿Cuándo elegir regresión lineal o árbol de decisión o regresión de bosque aleatorio? [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 4 años . Estoy...