Estoy tratando de eliminar palabras de detención antes de realizar el modelado de temas. Noté que algunas palabras de negación (no, ni, nunca, ninguna, etc.) generalmente se consideran palabras vacías. Por ejemplo, NLTK, spacy y sklearn incluyen "no" en sus listas de palabras de detención. Sin embargo, si eliminamos "no" de estas oraciones a continuación, pierden el significado significativo y eso no sería exacto para el modelado de temas o el análisis de sentimientos.
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
¿Alguien puede explicar por qué estas palabras de negación generalmente se consideran palabras de detención?
Respuestas:
Las palabras de parada generalmente se consideran "las palabras más comunes en un idioma". Sin embargo, otras definiciones basadas en diferentes tareas son posibles.
Claramente tiene sentido considerar 'no' como una palabra de parada si su tarea se basa en frecuencias de palabras (por ejemplo , análisis tf-idf para la clasificación de documentos).
Si le preocupa el contexto (por ejemplo , el análisis de sentimientos ) del texto, podría tener sentido tratar las palabras de negación de manera diferente. La negación cambia la llamada valencia de un texto. Esto debe tratarse con cuidado y generalmente no es trivial. Un ejemplo sería el corpus de negación de Twitter. En este documento se ofrece una explicación del enfoque .
fuente