Ciencia de los datos

9
qué técnicas de máquina / aprendizaje profundo / nlp se utilizan para clasificar palabras determinadas como nombre, número de teléfono móvil, dirección, correo electrónico, estado, condado, ciudad, etc.

Estoy tratando de generar un modelo inteligente que pueda escanear un conjunto de palabras o cadenas y clasificarlas como nombres, números móviles, direcciones, ciudades, estados, países y otras entidades utilizando el aprendizaje automático o el aprendizaje profundo. Había buscado enfoques, pero...

8
Error en cascada en la tormenta de Apache

Revisando la presentación y el material de Summingbird por Twitter, una de las razones que se mencionan para usar los clústeres de Storm y Hadoop juntos en Summingbird es que el procesamiento a través de Storm produce una cascada de errores. Para evitar esta cascada de errores y su acumulación, el...

8
Tutorial de aprendizaje automático en línea

¿Alguien sabe algunos buenos tutoriales sobre técnicas de aprendizaje automático en línea? Es decir, cómo se puede usar en entornos en tiempo real, cuáles son las diferencias clave en comparación con los métodos normales de aprendizaje automático, etc. UPD: Gracias a todos por las respuestas, por...

8
Matriz de puntuación de similitud de cadena

Tengo una carga de documentos, que tienen una carga de pares de valores clave en ellos. Es posible que la clave no sea única, por lo que puede haber varias claves del mismo tipo con valores diferentes. Quiero comparar la similitud de las claves entre 2 documentos. Más específicamente, la similitud...

8
¿Por qué la regresión de Gradient Boosting predice valores negativos cuando no hay valores y negativos en mi conjunto de entrenamiento?

Como puedo aumentar el número de árboles en scikit aprender 's GradientBoostingRegressor, consigo predicciones más negativas, a pesar de que no hay valores negativos en mi entrenamiento o de prueba establecido. Tengo alrededor de 10 características, la mayoría de las cuales son binarias. Algunos...

8
Error de R al usar el paquete tm (minería de texto)

Estoy intentando usar el paquete tm para convertir un vector de cadenas de texto en un elemento de corpus. Mi código se parece a esto Corpus(d1$Yes) donde d1$Yeses un factor con 124 niveles, cada uno con una cadena de texto. Por ejemplo, d1$Yes[246] = "So we can get the boat out!" Recibo el...