Sin tener en cuenta las posibles restricciones computacionales, ¿existen aplicaciones generales en las que la lematización sería un paso contraproducente al analizar datos de texto?
Por ejemplo, ¿sería la lematización algo que no se hace cuando se construye un modelo sensible al contexto?
Como referencia, la lematización por dictinory.com es el acto de agrupar las formas flexionadas de (una palabra) para su análisis como un solo elemento.
Por ejemplo, la palabra 'cocinar' es el lema de la palabra 'cocinar'. El acto de lematización es, por ejemplo, reemplazar la palabra cocinar con cocinar después de haber tokenizado sus datos de texto. Además, la palabra 'peor' tiene 'malo' como lema, y como el ejemplo anterior reemplaza la palabra 'peor' por 'malo' es la acción de la lematización.
fuente
Respuestas:
Tareas de PNL que se verían perjudicadas por la lematización:
1) Clasificación del tiempo
La secuencia de caracteres al final de los verbos puede ayudar en esta tarea. Los verbos cocinados y cocineros difieren en los últimos caracteres ed y s respectivamente.
Con la lematización, esta información se pierde. Ambos verbos se convierten en cocinero , haciendo que ambas oraciones parezcan (en este caso) en tiempo presente.
2) identificación del autor
Dado
clasificar si un documento está escrito por el autor o .s∈S a b
Una forma de lograr esto es mirar el histograma de las palabras presentes en y compararlo con los documentos de y y seleccionar el más similar.s P Q
Esto funciona porque diferentes autores usan ciertas palabras con diferentes frecuencias. Sin embargo, al usar la lematización, distorsiona estas frecuencias perjudicando el rendimiento de su modelo.
fuente