Preguntas etiquetadas con dataset

Un conjunto de datos es una colección de datos, a menudo en forma de tabla o matriz. Esta etiqueta NO está destinada a solicitudes de datos ("¿dónde puedo encontrar un conjunto de datos sobre ...") -> ver OpenData

168
Conjuntos de datos disponibles públicamente

Uno de los problemas comunes en la ciencia de datos es reunir datos de varias fuentes en un formato de alguna manera limpio (semi-estructurado) y combinar métricas de varias fuentes para hacer un análisis de nivel superior. Al observar el esfuerzo de otras personas, especialmente otras preguntas en...

29
¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

16
agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

13
Conjuntos de datos que comprenden las mejores prácticas

Soy un estudiante de maestría de CS en minería de datos. Mi supervisor me dijo una vez que antes de ejecutar cualquier clasificador o hacer algo con un conjunto de datos, debo entender completamente los datos y asegurarme de que estén limpios y correctos. Mis preguntas: ¿Cuáles son las mejores...

12
Tarifas de aerolíneas: ¿qué análisis se debe utilizar para detectar comportamientos competitivos de fijación de precios y correlaciones de precios?

Quiero investigar el comportamiento de fijación de precios de las aerolíneas, específicamente cómo las aerolíneas reaccionan a los precios de la competencia. Como diría, mi conocimiento sobre análisis más complejos es bastante limitado. He realizado principalmente todos los métodos básicos para...