Ciencia de los datos

10

¿Cómo se escalan las diversas técnicas estadísticas (regresión, PCA, etc.) con el tamaño y la dimensión de la muestra?

¿Existe una tabla general conocida de técnicas estadísticas que explique cómo se escalan con el tamaño y la dimensión de la muestra? Por ejemplo, un amigo mío me dijo el otro día que el tiempo de cálculo de simplemente clasificar rápidamente datos unidimensionales de tamaño n es n * log...

10

¿Por qué podrían varios tipos de modelos dar resultados casi idénticos?

He estado analizando un conjunto de datos de ~ 400k registros y 9 variables. La variable dependiente es binaria. He ajustado una regresión logística, un árbol de regresión, un bosque aleatorio y un árbol impulsado por gradiente. Todos ellos dan virtualmente idénticos números de bondad de ajuste...

data-mining classification binary

10

¿Qué pasos iniciales debo usar para dar sentido a grandes conjuntos de datos y qué herramientas debo usar?

Advertencia: soy un principiante completo cuando se trata de aprendizaje automático, pero estoy ansioso por aprender. Tengo un gran conjunto de datos y estoy tratando de encontrar un patrón en él. Es posible que exista / no una correlación entre los datos, ya sea con variables conocidas o con...

machine-learning data-mining tools beginner

10

Extraer una cadena canónica de una lista de cadenas ruidosas

Tengo miles de listas de cadenas, y cada lista tiene alrededor de 10 cadenas. La mayoría de las cadenas en una lista dada son muy similares, aunque algunas cadenas (rara vez) no están completamente relacionadas con las demás y algunas cadenas contienen palabras irrelevantes. Pueden considerarse...

nlp similarity information-retrieval

10

implementando la diferencia temporal en el ajedrez

He estado desarrollando un programa de ajedrez que utiliza el algoritmo de poda alfa-beta y una función de evaluación que evalúa las posiciones utilizando las siguientes características, a saber, material, seguridad real, movilidad, estructura de peones y piezas atrapadas, etc. Mi función de...

machine-learning algorithms reinforcement-learning

10

Bibliotecas para (algoritmos de propagación de etiquetas / minería de subgrafos frecuentes) para gráficos en R

Descripción general del problema. Tengo un gráfico donde algunos vértices están etiquetados con un tipo con 3 o 4 valores posibles. Para los otros vértices, el tipo es desconocido. Mi objetivo es usar el gráfico para predecir el tipo de vértices que no están etiquetados. Marco posible Sospecho...

classification r graphs

10

Bibliotecas para el aprendizaje automático en línea

Estoy buscando paquetes (ya sea en python, R o un paquete independiente) para realizar el aprendizaje en línea para predecir datos de existencias. Encontré y leí sobre Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki ), lo cual parece ser bastante prometedor, pero me pregunto si...

machine-learning online-learning

10

¿Cuánto tiempo tardan los clasificadores scikit en clasificar?

Estoy planeando usar el clasificador de máquina de vectores de soporte lineal (SVM) scikit para la clasificación de texto en un corpus que consta de 1 millón de documentos etiquetados. Lo que planeo hacer es que, cuando un usuario ingrese alguna palabra clave, el clasificador primero la clasificará...

machine-learning classification python scikit-learn

10

¿Cómo puedo clasificar el texto considerando el orden de las palabras, en lugar de usar un enfoque de bolsa de palabras?

Creé un clasificador Naive Bayes que utiliza la técnica de la bolsa de palabras para clasificar las publicaciones de spam en un tablero de mensajes. Funciona, pero creo que podría obtener mejores resultados si mis modelos consideraran el orden de las palabras y las frases. (p. ej., 'chicas' y 'en...

classification

10

¿Descenso de gradiente estocástico basado en operaciones vectoriales?

supongamos que quiero entrenar un algoritmo de regresión de descenso de gradiente estocástico usando un conjunto de datos que tiene N muestras. Como el tamaño del conjunto de datos es fijo, reutilizaré los datos T veces. En cada iteración o "época", uso cada muestra de entrenamiento exactamente una...

python gradient-descent regression

10

Detección de anomalías / valores atípicos escalables

Estoy tratando de configurar una infraestructura de big data usando Hadoop, Hive, Elastic Search (entre otros), y me gustaría ejecutar algunos algoritmos en ciertos conjuntos de datos. Me gustaría que los algoritmos en sí sean escalables, por lo que esto excluye el uso de herramientas como Weka, R...

data-mining bigdata algorithms outlier

10

Análisis del archivo de registro: extracción de la parte de información de la parte de valor

Estoy tratando de construir un conjunto de datos en varios archivos de registro de uno de nuestros productos. Los diferentes archivos de registro tienen su propio diseño y contenido; Los agrupé con éxito, solo quedaba un paso ... De hecho, los "mensajes" de registro son la mejor información. No...

text-mining clustering

10

Múltiples etiquetas en algoritmo de aprendizaje supervisado

Tengo un corpus de texto con los temas correspondientes. Por ejemplo, "A rapper Tupac was shot in LA"y fue etiquetado como ["celebrity", "murder"]. Entonces, básicamente, cada vector de entidades puede tener muchas etiquetas (no la misma cantidad. El primer vector de entidades puede tener 3...

machine-learning text-mining

10

Amplificación de un hash local sensible

Estoy tratando de construir un hash sensible a la localidad coseno para poder encontrar pares de artículos similares candidatos sin tener que comparar cada par posible. Básicamente funciona, pero la mayoría de los pares en mis datos parecen tener una similitud de coseno en el rango de -0.2 a +0.2,...

machine-learning

10

¿Tiene que normalizar los datos al construir árboles de decisión con R?

Entonces, nuestro conjunto de datos de esta semana tiene 14 atributos y cada columna tiene valores muy diferentes. Una columna tiene valores inferiores a 1, mientras que otra columna tiene valores que van de tres a cuatro dígitos enteros. Aprendimos normalización la semana pasada y parece que se...

r beginner

10

¿Cómo raspar la página web de imdb?

Estoy tratando de aprender el raspado web usando Python por mí mismo como parte de un esfuerzo por aprender el análisis de datos. Estoy tratando de raspar la página web de imdb cuya url es la siguiente:

data-mining python scraping

10

Spark, dividiendo de manera óptima un solo RDD en dos

Tengo un gran conjunto de datos que necesito dividir en grupos de acuerdo con parámetros específicos. Quiero que el trabajo se procese de la manera más eficiente posible. Puedo imaginar dos formas de hacerlo Opción 1 : crear un mapa a partir del RDD original y filtrar def customMapper(record):...

apache-spark pyspark

10

¿Están muertas las ontologías y la web semántica? [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 2 años . ¿Está muerta...

knowledge-base

10

¿Cómo calculo el término delta de una capa convolucional, dados los términos delta y los pesos de la capa convolucional anterior?

Estoy tratando de entrenar una red neuronal artificial con dos capas convolucionales (c1, c2) y dos capas ocultas (c1, c2). Estoy usando el enfoque estándar de retropropagación. En el paso hacia atrás calculo el término de error de una capa (delta) en función del error de la capa anterior, los...

machine-learning data-mining neural-network deep-learning

10

¿Qué es más rápido: PostgreSQL vs MongoDB en grandes conjuntos de datos JSON?

Tengo un gran conjunto de datos con 9 millones de objetos JSON a ~ 300 bytes cada uno. Son publicaciones de un agregador de enlaces: básicamente enlaces (una URL, título e identificación del autor) y comentarios (texto e identificación del autor) + metadatos. Bien podrían ser registros...

data-mining bigdata databases sql mongodb