Preguntas etiquetadas con text-mining

34

¿Cuáles son algunas formas estándar de calcular la distancia entre documentos?

Cuando digo "documento", tengo en mente páginas web como artículos de Wikipedia e historias de noticias. Prefiero las respuestas que ofrecen métricas de distancia léxica de vainilla o métricas de distancia semántica de última generación, con mayor preferencia por la

29

¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

28

¿Qué algoritmos debo usar para realizar una clasificación de trabajo basada en los datos del currículum?

Tenga en cuenta que estoy haciendo todo en R. El problema es el siguiente: Básicamente, tengo una lista de currículums (CV). Algunos candidatos tendrán experiencia laboral antes y otros no. El objetivo aquí es: en función del texto en sus CV, quiero clasificarlos en diferentes sectores de...

machine-learning classification nlp text-mining

27

Enfoque general para extraer texto clave de la oración (nlp)

Dada una oración como: Complimentary gym access for two for the length of stay ($12 value per person per day) ¿Qué enfoque general puedo tomar para identificar la palabra gimnasio o acceso al

machine-learning nlp text-mining data-cleaning

20

Extracción de palabras clave / frases de texto usando bibliotecas de Deep Learning

Quizás esto es demasiado amplio, pero estoy buscando referencias sobre cómo utilizar el aprendizaje profundo en una tarea de resumen de texto. Ya he implementado el resumen de texto utilizando enfoques estándar de frecuencia de palabras y clasificación de oraciones, pero me gustaría explorar la...

neural-network text-mining deep-learning beginner tensorflow

20

¿Cuál es la diferencia entre la clasificación de texto y los modelos de temas?

Sé la diferencia entre la agrupación y la clasificación en el aprendizaje automático, pero no entiendo la diferencia entre la clasificación de texto y el modelado de temas para documentos. ¿Puedo usar el modelado de temas sobre documentos para identificar un tema? ¿Puedo usar métodos de...

classification text-mining topic-model

19

¿Cómo hacer crecer una lista de palabras relacionadas basadas en palabras clave iniciales?

Recientemente vi una característica interesante que alguna vez estuvo disponible en las Hojas de cálculo de Google: comienza escribiendo algunas palabras clave relacionadas en celdas consecutivas, por ejemplo: "azul", "verde", "amarillo", y genera automáticamente palabras clave similares (en este...

nlp text-mining freebase

19

¿Qué es Hellinger Distance y cuándo usarlo?

Estoy interesado en saber qué sucede realmente en Hellinger Distance (en términos simples). Además, también me interesa saber cuáles son los tipos de problemas que podemos usar Hellinger Distance. ¿Cuáles son los beneficios de usar Hellinger

machine-learning data-mining text-mining distance

18

¿Cómo anotar documentos de texto con metadatos?

Teniendo muchos documentos de texto (en lenguaje natural, no estructurado), ¿cuáles son las posibles formas de anotarlos con algunos metadatos semánticos? Por ejemplo, considere un documento corto: I saw the company's manager last day. Para poder extraer información de él, debe anotarse con...

nlp metadata data-cleaning text-mining

17

Algoritmos para agrupamiento de texto

Tengo el problema de agrupar una gran cantidad de oraciones en grupos por sus significados. Esto es similar a un problema cuando tienes muchas oraciones y quieres agruparlas por sus significados. ¿Qué algoritmos se sugieren para hacer esto? No sé la cantidad de clústeres de antemano (y a medida...

clustering text-mining algorithms scikit-learn

17

Doc2Vec - Cómo etiquetar los párrafos (gensim)

Me pregunto cómo etiquetar (etiquetar) oraciones / párrafos / documentos con doc2vec en gensim, desde un punto de vista práctico. ¿Necesita tener cada oración / párrafo / documento con su propia etiqueta única (por ejemplo, "Sent_123")? Esto parece útil si desea decir "qué palabras u oraciones...

machine-learning text-mining word-embeddings word2vec

16

agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

16

Extrae la mayoría de las partes informativas del texto de los documentos.

¿Hay algún artículo o discusión sobre la extracción de parte del texto que contenga la mayor parte de la información sobre el documento actual? Por ejemplo, tengo un gran corpus de documentos del mismo dominio. Hay partes del texto que contienen la información clave de la que habla un solo...

nlp text-mining

14

¿Cómo hacer direcciones postales coincidencia difusa?

Me gustaría saber cómo hacer coincidir las direcciones postales cuando su formato difiere o cuando uno de ellos está mal escrito. Hasta ahora he encontrado diferentes soluciones, pero creo que son bastante antiguas y poco eficientes. Estoy seguro de que existen algunos métodos mejores, por lo que...

text-mining data-cleaning

13

Escalado de datos de forma ética y rentable

Pocas cosas en la vida me dan placer, como extraer datos estructurados y no estructurados de Internet y utilizarlos en mis modelos. Por ejemplo, el Data Science Toolkit (o RDSTKpara los programadores de R) me permite extraer muchos datos buenos basados en la ubicación utilizando IP o...

text-mining scraping

13

Reconocer una gramática en una secuencia de tokens difusos

Tengo documentos de texto que contienen principalmente listas de artículos. Cada elemento es un grupo de varios tokens de diferentes tipos: nombre, apellido, fecha de nacimiento, número de teléfono, ciudad, ocupación, etc. Un token es un grupo de palabras. Los artículos pueden estar en varias...

data-mining clustering text-mining time-series correlation

12

Clasificación de texto no estructurado

Voy a clasificar documentos de texto no estructurados, es decir, sitios web de estructura desconocida. El número de clases a las que estoy clasificando es limitado (en este momento, creo que no hay más de tres). ¿Alguien tiene una sugerencia de cómo podría comenzar? ¿Es factible aquí el enfoque de...

machine-learning classification text-mining beginner

12

Algoritmo de coincidencia de preferencias

Hay un proyecto paralelo en el que estoy trabajando en el que necesito estructurar una solución al siguiente problema. Tengo dos grupos de personas (clientes). El grupo Atiene la intención de comprar y el grupo Btiene la intención de vender un producto determinado X. El producto tiene una serie de...

bigdata text-mining recommender-system

12

Alternativas a TF-IDF y Cosine Similarity al comparar documentos de diferentes formatos

He estado trabajando en un proyecto pequeño y personal que toma las habilidades laborales de un usuario y sugiere la carrera más ideal para ellos en función de esas habilidades. Utilizo una base de datos de listados de trabajo para lograr esto. Por el momento, el código funciona de la siguiente...

nlp text-mining similarity cosine-distance

11

Uso de la agrupación en el procesamiento de texto

Hola, esta es mi primera pregunta en la pila de Data Science. Quiero crear un algoritmo para la clasificación de texto. Supongamos que tengo un gran conjunto de textos y artículos. Digamos alrededor de 5000 textos simples. Primero uso una función simple para determinar la frecuencia de las palabras...

text-mining clustering