Ciencia de los datos

40
Ciencia de datos en C (o C ++)

Soy un Rprogramador de idiomas. También estoy en el grupo de personas que se consideran científicos de datos pero que provienen de disciplinas académicas distintas de la CS. Sin embargo, esto funciona bien en mi papel como Científico de Datos, al comenzar mi carrera Ry tener solo conocimientos...

39
Cuándo usar qué: aprendizaje automático [cerrado]

Recientemente, en una clase de Aprendizaje automático del profesor Oriol Pujol en la UPC / Barcelona, ​​describió los algoritmos, principios y conceptos más comunes para usar en una amplia gama de tareas relacionadas con el aprendizaje automático. Aquí los comparto contigo y te pregunto: ¿Existe...

37
¿Los científicos de datos usan Excel?

Me consideraría un científico de datos oficial. Como la mayoría (creo), hice mis primeros cuadros e hice mis primeras agregaciones en la escuela secundaria y la universidad, usando Excel. A medida que cursé la universidad, la escuela de posgrado y ~ 7 años de experiencia laboral, rápidamente...

37
¿Cómo interpretar la salida de importancia XGBoost?

Ejecuté un modelo xgboost. No sé exactamente cómo interpretar la salida de xgb.importance. ¿Cuál es el significado de ganancia, cobertura y frecuencia y cómo los interpretamos? Además, ¿qué significa Split, RealCover y RealCover%? Tengo algunos parámetros extra aquí ¿Hay algún otro parámetro que...

35
¿Qué opinas de las certificaciones de Data Science?

Ahora he visto dos programas de certificación de ciencia de datos: el John Hopkins disponible en Coursera y el Cloudera . Estoy seguro de que hay otros por ahí. El conjunto de clases de John Hopkins se centra en R como un conjunto de herramientas, pero cubre una variedad de temas: Programación...

35
Explicación de la pérdida de entropía cruzada

Supongamos que construyo un NN para la clasificación. La última capa es una capa densa con activación softmax. Tengo cinco clases diferentes para clasificar. Supongamos que para un solo ejemplo de entrenamiento, el true labeles [1 0 0 0 0]mientras las predicciones sean [0.1 0.5 0.1 0.1 0.2]. ¿Cómo...

34
Procesos organizados para limpiar datos

Desde mi limitada experiencia en ciencia de datos con R, me di cuenta de que limpiar datos incorrectos es una parte muy importante de la preparación de datos para el análisis. ¿Existen mejores prácticas o procesos para limpiar los datos antes de procesarlos? Si es así, ¿existen herramientas...

33
Abrir un archivo de 20GB para análisis con pandas

Actualmente estoy tratando de abrir un archivo con pandas y python para fines de aprendizaje automático, sería ideal para mí tenerlos a todos en un DataFrame. Ahora el archivo es de 18 GB y mi RAM es de 32 GB, pero sigo recibiendo errores de memoria. Desde su experiencia, ¿es posible? Si no,...

33
Multi GPU en keras

¿Cómo puede programar en la biblioteca de keras (o flujo de tensor) para particionar el entrenamiento en múltiples GPU? Digamos que se encuentra en una instancia de Amazon ec2 que tiene 8 GPU y desea utilizarlas todas para entrenar más rápido, pero su código es solo para una sola CPU o...