Preguntas etiquetadas con random-forest

El bosque aleatorio es un clasificador de aprendizaje automático basado en la elección de subconjuntos aleatorios de variables para cada árbol y el uso de la salida de árbol más frecuente como clasificación general.

29
¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

24
¿Random Forest se sobreajusta?

He estado leyendo sobre los bosques aleatorios, pero realmente no puedo encontrar una respuesta definitiva sobre el problema del sobreajuste. Según el documento original de Breiman, no deberían sobreajustarse al aumentar el número de árboles en el bosque, pero parece que no hay consenso sobre esto....

16
Método de puntuación RandomForestClassifier OOB

¿La implementación aleatoria del bosque en scikit-learn utiliza la precisión media como método de puntuación para estimar el error de generalización con muestras fuera de bolsa? Esto no se menciona en la documentación, pero el método score () informa la precisión media. Tengo un conjunto de datos...

16
agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

12
Importancia de la característica con características categóricas de alta cardinalidad para la regresión (variable de representación numérica)

Intenté usar las características de las características de los bosques aleatorios para realizar una selección empírica de características para un problema de regresión donde todas las características son categóricas y muchas de ellas tienen muchos niveles (del orden de 100-1000). Dado que la...

12
¿Cuántas celdas LSTM debo usar?

¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time...