Ciencia de los datos

11
Contabilidad de experimentos y resultados

Soy un investigador práctico y me gusta probar soluciones viables, por lo que tiendo a hacer muchos experimentos. Por ejemplo, si estoy calculando un puntaje de similitud entre documentos, me gustaría probar muchas medidas. De hecho, para cada medida podría necesitar hacer varias corridas para...

11
Uso de la agrupación en el procesamiento de texto

Hola, esta es mi primera pregunta en la pila de Data Science. Quiero crear un algoritmo para la clasificación de texto. Supongamos que tengo un gran conjunto de textos y artículos. Digamos alrededor de 5000 textos simples. Primero uso una función simple para determinar la frecuencia de las palabras...

11
¿Cómo fusionar datos mensuales, diarios y semanales?

Google Trends devuelve datos semanales, así que tengo que encontrar una manera de combinarlos con mis datos diarios / mensuales. Lo que he hecho hasta ahora es dividir cada serie en datos diarios, por ejemplo: desde: 2013-03-03 - 2013-03-09 37 a: 2013-03-03 37 2013-03-04 37 2013-03-05 37...

11
Intuición para el parámetro de regularización en SVM

¿Cómo cambiar el parámetro de regularización en un SVM cambia el límite de decisión para un conjunto de datos no separable? Sería muy útil una respuesta visual y / o algún comentario sobre los comportamientos limitantes (para regularizaciones grandes y

11
Raspado web de LinkedIn

Recientemente descubrí un nuevo paquete R para conectarse a la API de LinkedIn. Desafortunadamente, la API de LinkedIn parece bastante limitada para empezar; por ejemplo, solo puede obtener datos básicos sobre empresas, y esto se separa de los datos sobre individuos. Me gustaría obtener datos sobre...

11
aplicar word2vec en archivos de texto pequeños

Soy totalmente nuevo en word2vec, así que por favor llévelo conmigo. Tengo un conjunto de archivos de texto que contienen cada uno un conjunto de tweets, entre 1000-3000. Elegí una palabra clave común ("kw1") y quiero encontrar términos semánticamente relevantes para "kw1" usando word2vec. Por...