Preguntas etiquetadas con text-mining

Se refiere a un subconjunto de minería de datos relacionado con la extracción de información de datos en forma de texto mediante el reconocimiento de patrones. El objetivo de la minería de texto es a menudo clasificar un documento dado en una de varias categorías de forma automática, y mejorar este rendimiento dinámicamente, convirtiéndolo en un ejemplo de aprendizaje automático. Un ejemplo de este tipo de minería de texto son los filtros de spam utilizados para el correo electrónico.

78
Un ejemplo: regresión LASSO usando glmnet para el resultado binario

Estoy empezando a incursionar con el uso de glmnetla LASSO regresión donde mi resultado de interés es dicotómica. He creado un pequeño marco de datos simulados a continuación: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...

36
¿Cómo combinar cuasi dos vectores de cadenas (en R)?

No estoy seguro de cómo debería llamarse esto, así que corríjame si conoce un término mejor. Tengo dos listas. Uno de los 55 elementos (por ejemplo, un vector de cadenas), el otro de 92. Los nombres de los elementos son similares pero no idénticos. Deseo encontrar los mejores candidatos s en la...

20
¿Se ha replicado el rendimiento del estado de la técnica de usar vectores de párrafo para el análisis de sentimientos?

Me impresionaron los resultados en el documento ICML 2014 " Representaciones distribuidas de oraciones y documentos " de Le y Mikolov. La técnica que describen, llamada "vectores de párrafo", aprende representaciones sin supervisión de párrafos / documentos arbitrariamente largos, basados ​​en una...

18
Clasificación de texto a gran escala

Estoy buscando hacer una clasificación en mis datos de texto. Tengo 300 classes200 documentos de capacitación por clase (más o menos 60000 documents in total) y es probable que esto genere datos dimensionales muy altos (es posible que estemos buscando más de 1 millón de dimensiones ). Me gustaría...