Preguntas etiquetadas con bigdata

Big data es el término para una colección de conjuntos de datos tan grandes y complejos que resulta difícil procesarlos utilizando herramientas de administración de bases de datos disponibles o aplicaciones de procesamiento de datos tradicionales. Los desafíos incluyen captura, curación, almacenamiento, búsqueda, intercambio, transferencia, análisis y visualización.

86
¿Qué tan grande es el big data?

Mucha gente usa el término big data de una manera bastante comercial , como un medio de indicar que grandes conjuntos de datos están involucrados en el cálculo y, por lo tanto, las posibles soluciones deben tener un buen rendimiento. Por supuesto, big data siempre lleva términos asociados, como...

48
¿Es el lenguaje R adecuado para Big Data?

R tiene muchas bibliotecas dirigidas al análisis de datos (por ejemplo, JAGS, BUGS, ARULES, etc.), y se menciona en libros de texto populares como: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Aprendizaje automático con R". He visto una directriz de 5 TB para que un conjunto de datos se...

40
Ciencia de datos en C (o C ++)

Soy un Rprogramador de idiomas. También estoy en el grupo de personas que se consideran científicos de datos pero que provienen de disciplinas académicas distintas de la CS. Sin embargo, esto funciona bien en mi papel como Científico de Datos, al comenzar mi carrera Ry tener solo conocimientos...

33
Abrir un archivo de 20GB para análisis con pandas

Actualmente estoy tratando de abrir un archivo con pandas y python para fines de aprendizaje automático, sería ideal para mí tenerlos a todos en un DataFrame. Ahora el archivo es de 18 GB y mi RAM es de 32 GB, pero sigo recibiendo errores de memoria. Desde su experiencia, ¿es posible? Si no,...

29
¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

16
agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

14
¿Cuándo son engañosos los valores p?

¿Cuáles son las condiciones de datos que debemos tener en cuenta, donde los valores p pueden no ser la mejor manera de decidir la significación estadística? ¿Existen tipos de problemas específicos que caen en esta

14
¿Python es adecuado para big data?

Leí en esta publicación ¿Es el lenguaje R adecuado para Big Data lo que constituye big data 5TB, y si bien hace un buen trabajo al proporcionar información sobre la viabilidad de trabajar con este tipo de datos R, proporciona muy poca información Python? Me preguntaba si Pythonpuede funcionar con...

13
Estudio de caso de Big Data o ejemplo de caso de uso

He leído muchos blogs \ artículos sobre cómo diferentes tipos de industrias están utilizando Big Data Analytic. Pero la mayoría de estos artículos no menciona Qué tipo de datos usaron estas compañías. ¿Cuál fue el tamaño de los datos? ¿Qué tipo de herramientas tecnológicas utilizaron para...