Ciencia de los datos

15

Diferencia de recomendación basada en artículo y en usuario en Mahout

Me gustaría saber en qué se diferencian exactamente las recomendaciones basadas en el usuario y en el artículo. Define que Basado en el usuario : recomiende elementos buscando usuarios similares. Esto a menudo es más difícil de escalar debido a la naturaleza dinámica de los usuarios. Basado en...

15

Herramientas de ciencia de datos con Scala

Sé que Spark está completamente integrado con Scala. Su caso de uso es específicamente para grandes conjuntos de datos. ¿Qué otras herramientas tienen buen soporte de Scala? ¿Es Scala el más adecuado para conjuntos de datos más grandes? ¿O también es adecuado para conjuntos de datos más...

scalability scala

15

¿La ventana deslizante conduce a un sobreajuste en LSTM?

¿Prepararé mi LSTM si lo entreno a través del enfoque de ventana deslizante? ¿Por qué la gente no parece usarlo para LSTM? Para un ejemplo simplificado, suponga que tenemos que predecir la secuencia de caracteres: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z ¿Es malo (o mejor?) Si sigo...

lstm backpropagation mini-batch-gradient-descent

15

Proyectos de ciencia de datos de código abierto para contribuir

La contribución a los proyectos de código abierto suele ser una buena forma de obtener algo de práctica para los novatos y probar una nueva área para científicos y analistas de datos con experiencia. ¿Qué proyectos aportas? Proporcione alguna introducción + enlace en

beginner open-source

15

propagación hacia atrás en CNN

Tengo la siguiente CNN: Comienzo con una imagen de entrada de tamaño 5x5 Luego aplico convolución usando kernel 2x2 y stride = 1, que produce un mapa de características de tamaño 4x4. Luego aplico 2x2 max-pooling con stride = 2, que reduce el mapa de características al tamaño 2x2. Luego aplico...

machine-learning convnet backpropagation cnn kernel

15

¿Cómo escalar una matriz de enteros con signo para variar de 0 a 1?

Estoy usando Brain para entrenar una red neuronal en un conjunto de características que incluye valores positivos y negativos. Pero Brain requiere valores de entrada entre 0 y 1. ¿Cuál es la mejor manera de normalizar mis

machine-learning neural-network feature-scaling normalization javascript

15

Diferencia de funciones de activación en redes neuronales en general

He estudiado los tipos de funciones de activación para redes neuronales. Las funciones en sí son bastante sencillas, pero la diferencia de la aplicación no está del todo clara. Es razonable que se diferencie entre las funciones de tipo lógico y lineal, dependiendo de la salida binaria / continua...

neural-network activation-function

15

¿Por qué las funciones de activación tienen que ser monótonas?

Actualmente me estoy preparando para un examen en redes neuronales. En varios protocolos de exámenes anteriores, leí que las funciones de activación de las neuronas (en perceptrones multicapa) tienen que ser monótonas. Entiendo que las funciones de activación deben ser diferenciables, tener una...

machine-learning neural-network

15

Árbol de decisión vs. KNN

¿En qué casos es mejor usar un árbol de decisión y otros casos un KNN? ¿Por qué usar uno de ellos en ciertos casos? ¿Y el otro en diferentes casos? (Al observar su funcionalidad, no el algoritmo) ¿Alguien tiene algunas explicaciones o referencias sobre

machine-learning data-mining decision-trees

15

R: aprendizaje automático en GPU

¿Hay algún paquete de aprendizaje automático para R que pueda hacer uso de la GPU para mejorar la velocidad de entrenamiento (algo así como theano del mundo python)? Veo que hay un paquete llamado gputools que permite la ejecución de código en la gpu, pero estoy buscando una biblioteca más...

machine-learning r gpu

15

Biblioteca de Python para implementar modelos ocultos de Markov

¿Qué biblioteca estable de Python puedo usar para implementar modelos ocultos de Markov? Necesito que esté razonablemente bien documentado, porque nunca antes había usado este modelo. Alternativamente, ¿existe un enfoque más directo para realizar un análisis de series de tiempo en un conjunto de...

python time-series markov-process

15

¿Cómo funciona SelectKBest?

Estoy viendo este tutorial: https://www.dataquest.io/mission/75/improving-your-submission En la sección 8, que encuentra las mejores características, muestra el siguiente código. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex",...

python scikit-learn

14

¿Cuándo son engañosos los valores p?

¿Cuáles son las condiciones de datos que debemos tener en cuenta, donde los valores p pueden no ser la mejor manera de decidir la significación estadística? ¿Existen tipos de problemas específicos que caen en esta

bigdata statistics

14

¿Las bibliotecas modernas de R y / o Python hacen que SQL sea obsoleto?

Trabajo en una oficina donde SQL Server es la columna vertebral de todo lo que hacemos, desde el procesamiento de datos hasta la limpieza y el mung. Mi colega se especializa en escribir funciones complejas y procedimientos almacenados para procesar metódicamente los datos entrantes para que puedan...

python r data-cleaning data sql

14

RNN usando múltiples series de tiempo

Estoy tratando de crear una red neuronal utilizando series de tiempo como entrada, para entrenarla según el tipo de cada serie. Leí que usando RNNs puedes dividir la entrada en lotes y usar cada punto de la serie de tiempo en neuronas individuales y eventualmente entrenar la red. Sin embargo, lo...

time-series rnn

14

Cambio de tamaño y relleno de imágenes para CNN

Quiero entrenar a una CNN para el reconocimiento de imágenes. Las imágenes para entrenamiento no tienen un tamaño fijo. Quiero que el tamaño de entrada para el CNN sea 50x100 (alto x ancho), por ejemplo. Cuando cambio el tamaño de algunas imágenes de tamaño pequeño (por ejemplo, 32x32) al tamaño de...

machine-learning image-classification preprocessing image-recognition

14

Datos de alta dimensión: ¿cuáles son las técnicas útiles para saber?

Debido a varias maldiciones de dimensionalidad , la precisión y la velocidad de muchas de las técnicas predictivas comunes se degradan en datos de alta dimensión. ¿Cuáles son algunas de las técnicas / trucos / heurísticas más útiles que ayudan a manejar los datos de alta dimensión de manera...

machine-learning statistics dimensionality-reduction

14

Cómo agregar características que no son de imagen a lo largo de las imágenes laterales como entrada de CNN

Estoy entrenando una red neuronal convolucional para clasificar imágenes en condiciones de niebla (3 clases). Sin embargo, para cada una de aproximadamente 150,000 imágenes también tengo cuatro variables meteorológicas disponibles que podrían ayudar a predecir las clases de las imágenes. Me...

machine-learning neural-network deep-learning tensorflow cnn

14

¿Rápido k-significa como algoritmo para 10 ^ 10 puntos?

Estoy buscando hacer clusters de k-means en un conjunto de puntos de 10 dimensiones. El truco: hay 10 ^ 10 puntos . Estoy buscando solo el centro y el tamaño de los grupos más grandes (digamos de 10 a 100 grupos); No me importa en qué grupo termina cada punto. Usar k-means específicamente no es...

clustering k-means

14

Uso de atributos para clasificar / agrupar perfiles de usuario

Tengo un conjunto de datos de usuarios que compran productos de un sitio web. Los atributos que tengo son la identificación del usuario, la región (estado) del usuario, la identificación de las categorías del producto, la identificación de las palabras clave del producto, la identificación de las...

machine-learning data-mining classification clustering