Ciencia de los datos

15
Herramientas de ciencia de datos con Scala

Sé que Spark está completamente integrado con Scala. Su caso de uso es específicamente para grandes conjuntos de datos. ¿Qué otras herramientas tienen buen soporte de Scala? ¿Es Scala el más adecuado para conjuntos de datos más grandes? ¿O también es adecuado para conjuntos de datos más...

15
R: aprendizaje automático en GPU

¿Hay algún paquete de aprendizaje automático para R que pueda hacer uso de la GPU para mejorar la velocidad de entrenamiento (algo así como theano del mundo python)? Veo que hay un paquete llamado gputools que permite la ejecución de código en la gpu, pero estoy buscando una biblioteca más...

15
¿Cómo funciona SelectKBest?

Estoy viendo este tutorial: https://www.dataquest.io/mission/75/improving-your-submission En la sección 8, que encuentra las mejores características, muestra el siguiente código. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex",...

14
¿Cuándo son engañosos los valores p?

¿Cuáles son las condiciones de datos que debemos tener en cuenta, donde los valores p pueden no ser la mejor manera de decidir la significación estadística? ¿Existen tipos de problemas específicos que caen en esta

14
RNN usando múltiples series de tiempo

Estoy tratando de crear una red neuronal utilizando series de tiempo como entrada, para entrenarla según el tipo de cada serie. Leí que usando RNNs puedes dividir la entrada en lotes y usar cada punto de la serie de tiempo en neuronas individuales y eventualmente entrenar la red. Sin embargo, lo...

14
¿Rápido k-significa como algoritmo para 10 ^ 10 puntos?

Estoy buscando hacer clusters de k-means en un conjunto de puntos de 10 dimensiones. El truco: hay 10 ^ 10 puntos . Estoy buscando solo el centro y el tamaño de los grupos más grandes (digamos de 10 a 100 grupos); No me importa en qué grupo termina cada punto. Usar k-means específicamente no es...