Ciencia de los datos

9

qué técnicas de máquina / aprendizaje profundo / nlp se utilizan para clasificar palabras determinadas como nombre, número de teléfono móvil, dirección, correo electrónico, estado, condado, ciudad, etc.

Estoy tratando de generar un modelo inteligente que pueda escanear un conjunto de palabras o cadenas y clasificarlas como nombres, números móviles, direcciones, ciudades, estados, países y otras entidades utilizando el aprendizaje automático o el aprendizaje profundo. Había buscado enfoques, pero...

9

¿Se puede aplicar el aprendizaje por refuerzo para el pronóstico de series de tiempo?

time-series reinforcement-learning forecasting

9

¿La normalización por lotes significa que los sigmoides funcionan mejor que los ReLU?

La normalización por lotes y ReLU son soluciones al problema del gradiente de fuga. Si estamos usando la normalización por lotes, ¿deberíamos usar sigmoides? ¿O hay características de ReLU que hacen que valga la pena incluso cuando se usa batchnorm? Supongo que la normalización realizada en...

deep-learning batch-normalization

9

¿Por qué mi modelo Keras aprende a reconocer el fondo?

Estoy tratando de entrenar esta implementación Keras de Deeplabv3 + en Pascal VOC2012, usando el modelo pre-entrenado (que también fue entrenado en ese conjunto de datos). Obtuve resultados extraños con la precisión rápidamente convergente a 1.0: 5/5 [==============================] - 182s...

python deep-learning keras tensorflow

9

¿Cómo calculo la probabilidad de predicción de una clase en Java Weka Api?

Estoy desarrollando un modelo de predicción utilizando Java Weka api. Puedo predecir la clase para la nueva instancia usando el siguiente código: double predictClass = classifer.classifyInstance(instance) Sin embargo, necesito la probabilidad de clase en lugar del valor de la clase. Gracias de...

classification java weka

9

¿Qué se entiende por Distribuido para una biblioteca de aumento de gradiente?

Estoy revisando la documentación de XGBoost y se dice que XGBoost es una biblioteca optimizada de aumento de gradiente distribuido . ¿Qué se entiende por distribuido? Que tengas un buen

xgboost distributed boosting

9

SGDClassifier: aprendizaje en línea / parcial_fit con una etiqueta previamente desconocida

Mi conjunto de entrenamiento contiene aproximadamente 50k entradas con las que hago un aprendizaje inicial. Semanalmente, se agregan ~ 5k entradas; pero la misma cantidad "desaparece" (ya que son los datos del usuario los que deben eliminarse después de un tiempo) Por lo tanto, uso el aprendizaje...

multiclass-classification online-learning

9

PhD de matemática (programación no lineal) que cambia a ciencia de datos?

Soy un doctorado en matemáticas. estudiante que está interesado en ir a la industria como Data Scientist después de graduarse. Daré brevemente algunos antecedentes sobre mi educación antes de plantear mi pregunta, para que se entienda mejor: Cursos de matemáticas: Esto ha sido principalmente en...

machine-learning deep-learning data-cleaning data-analysis reference-request

8

Red neuronal de propagación posterior de múltiples capas para clasificación

¿Puede alguien explicarme cómo clasificar datos como MNIST con la red MLBP-Neural si hago más de una salida (por ejemplo, 8), quiero decir que si solo uso una salida, puedo clasificar fácilmente los datos, pero si uso más de uno, ¿qué salida debo

neural-network

8

¿Cuáles son los casos de uso de aplicaciones de ciencia de datos más populares para las empresas web de consumo?

El caso de uso más popular parece ser un sistema de recomendación de diferentes tipos (como recomendar artículos de compras, usuarios en redes sociales, etc.). Pero, ¿cuáles son otras aplicaciones típicas de ciencia de datos, que se pueden usar en diferentes verticales? Por ejemplo: predicción de...

usecase consumerweb

8

Error en cascada en la tormenta de Apache

Revisando la presentación y el material de Summingbird por Twitter, una de las razones que se mencionan para usar los clústeres de Storm y Hadoop juntos en Summingbird es que el procesamiento a través de Storm produce una cascada de errores. Para evitar esta cascada de errores y su acumulación, el...

bigdata apache-hadoop

8

Cómo obtener una matriz de confusión agregada de n clasificaciones diferentes

Quiero probar la precisión de una metodología. Lo ejecuté ~ 400 veces, y obtuve una clasificación diferente para cada carrera. También tengo la verdad fundamental, es decir, la clasificación real contra la cual probar. Para cada clasificación, calculé una matriz de confusión. Ahora quiero agregar...

classification confusion-matrix accuracy

8

Selección de funciones para rastrear la actividad del usuario dentro de una aplicación

Estoy desarrollando un sistema que pretende capturar el "contexto" de la actividad del usuario dentro de una aplicación; Es un marco que las aplicaciones web pueden usar para etiquetar la actividad del usuario en función de las solicitudes realizadas al sistema. Se espera que estos datos puedan...

feature-selection

8

Tutorial de aprendizaje automático en línea

¿Alguien sabe algunos buenos tutoriales sobre técnicas de aprendizaje automático en línea? Es decir, cómo se puede usar en entornos en tiempo real, cuáles son las diferencias clave en comparación con los métodos normales de aprendizaje automático, etc. UPD: Gracias a todos por las respuestas, por...

machine-learning education beginner

8

Matriz de puntuación de similitud de cadena

Tengo una carga de documentos, que tienen una carga de pares de valores clave en ellos. Es posible que la clave no sea única, por lo que puede haber varias claves del mismo tipo con valores diferentes. Quiero comparar la similitud de las claves entre 2 documentos. Más específicamente, la similitud...

algorithms similarity

8

¿Por qué la regresión de Gradient Boosting predice valores negativos cuando no hay valores y negativos en mi conjunto de entrenamiento?

Como puedo aumentar el número de árboles en scikit aprender 's GradientBoostingRegressor, consigo predicciones más negativas, a pesar de que no hay valores negativos en mi entrenamiento o de prueba establecido. Tengo alrededor de 10 características, la mayoría de las cuales son binarias. Algunos...

machine-learning python algorithms scikit-learn kaggle

8

Datos linealmente crecientes con reinicio manual

Tengo un conjunto de datos de series temporales de un sensor que aumenta linealmente, con rangos de valores entre 50 y 150. Implementé un algoritmo de regresión lineal simple para ajustar una línea de regresión en dichos datos, y estoy prediciendo la fecha en que la serie alcanzaría 120 Todo...

machine-learning statistics time-series

8

¿Cuáles son algunas formas estándar de calcular la distancia entre consultas de búsqueda individuales?

Hice una pregunta similar sobre la distancia entre "documentos" (artículos de Wikipedia, noticias, etc.). Hice esta pregunta por separado porque las consultas de búsqueda son considerablemente más pequeñas que los documentos y son mucho más ruidosas. Por lo tanto, no sé (y dudo) si las mismas...

machine-learning nlp search

8

Ciencia de datos y modelo de programación MapReduce de Hadoop

¿Cuáles son las diferentes clases de problemas de ciencia de datos que se pueden resolver utilizando el modelo de programación

apache-hadoop map-reduce

8

Error de R al usar el paquete tm (minería de texto)

Estoy intentando usar el paquete tm para convertir un vector de cadenas de texto en un elemento de corpus. Mi código se parece a esto Corpus(d1$Yes) donde d1$Yeses un factor con 124 niveles, cada uno con una cadena de texto. Por ejemplo, d1$Yes[246] = "So we can get the boat out!" Recibo el...

r text-mining