Preguntas etiquetadas con data

Preguntas relacionadas principalmente con la gestión de datos, sin centrarse en el preprocesamiento o el modelado.

86
¿Qué tan grande es el big data?

Mucha gente usa el término big data de una manera bastante comercial , como un medio de indicar que grandes conjuntos de datos están involucrados en el cálculo y, por lo tanto, las posibles soluciones deben tener un buen rendimiento. Por supuesto, big data siempre lleva términos asociados, como...

48
¿Es el lenguaje R adecuado para Big Data?

R tiene muchas bibliotecas dirigidas al análisis de datos (por ejemplo, JAGS, BUGS, ARULES, etc.), y se menciona en libros de texto populares como: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Aprendizaje automático con R". He visto una directriz de 5 TB para que un conjunto de datos se...

40
Ciencia de datos en C (o C ++)

Soy un Rprogramador de idiomas. También estoy en el grupo de personas que se consideran científicos de datos pero que provienen de disciplinas académicas distintas de la CS. Sin embargo, esto funciona bien en mi papel como Científico de Datos, al comenzar mi carrera Ry tener solo conocimientos...

33
Abrir un archivo de 20GB para análisis con pandas

Actualmente estoy tratando de abrir un archivo con pandas y python para fines de aprendizaje automático, sería ideal para mí tenerlos a todos en un DataFrame. Ahora el archivo es de 18 GB y mi RAM es de 32 GB, pero sigo recibiendo errores de memoria. Desde su experiencia, ¿es posible? Si no,...

29
¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

16
agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...