PNL: ¿por qué "no" es una palabra de parada?

Estoy tratando de eliminar palabras de detención antes de realizar el modelado de temas. Noté que algunas palabras de negación (no, ni, nunca, ninguna, etc.) generalmente se consideran palabras vacías. Por ejemplo, NLTK, spacy y sklearn incluyen "no" en sus listas de palabras de detención. Sin embargo, si eliminamos "no" de estas oraciones a continuación, pierden el significado significativo y eso no sería exacto para el modelado de temas o el análisis de sentimientos.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

¿Alguien puede explicar por qué estas palabras de negación generalmente se consideran palabras de detención?

Si está haciendo un análisis semántico de oraciones, obviamente las conexiones lógicas son importantes: (1) si no (2). Si tiene la intención de modelar la lógica de estas oraciones, manténgalas fuera de la bolsa de topes. Por lo general, se arrojan allí porque desde el punto de vista de la minería de datos, la presencia de 'no' en un documento no nos dirá mucho sobre el tema para ayudarnos a distinguirlo de otros documentos; No es lo suficientemente raro. Probablemente haya otras razones para ignorarlas en las tareas de PNL.

Hunan Rostomyan

Respuestas:

Las palabras de parada generalmente se consideran "las palabras más comunes en un idioma". Sin embargo, otras definiciones basadas en diferentes tareas son posibles.

Claramente tiene sentido considerar 'no' como una palabra de parada si su tarea se basa en frecuencias de palabras (por ejemplo , análisis tf-idf para la clasificación de documentos).

Si le preocupa el contexto (por ejemplo , el análisis de sentimientos ) del texto, podría tener sentido tratar las palabras de negación de manera diferente. La negación cambia la llamada valencia de un texto. Esto debe tratarse con cuidado y generalmente no es trivial. Un ejemplo sería el corpus de negación de Twitter. En este documento se ofrece una explicación del enfoque .

oW_
fuente