¿Cuándo uso cada uno?
Además ... ¿la lematización de NLTK depende de las partes del discurso? ¿No sería más preciso si lo fuera?
python
nlp
nltk
lemmatization
TIMEX
fuente
fuente
Respuestas:
Corto y denso: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
De los documentos de NLTK:
fuente
Fuente : https://en.wikipedia.org/wiki/Lemmatisation
fuente
Hay dos aspectos para mostrar sus diferencias:
Una raíz devolverá la raíz de una palabra, que no necesita ser idéntica a la raíz morfológica de la palabra. Por lo general, es suficiente que las palabras relacionadas se asignen a la misma raíz, incluso si la raíz no es en sí misma una raíz válida, mientras que en la lematización , devolverá la forma del diccionario de una palabra, que debe ser una palabra válida.
En la lematización , la parte del habla de una palabra debe determinarse primero y las reglas de normalización serán diferentes para diferentes partes del discurso, mientras que el stemmer opera en una sola palabra sin conocimiento del contexto, y por lo tanto no puede discriminar entre palabras que tienen diferentes significados dependiendo de parte del discurso.
Referencia http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization
fuente
El propósito de la derivación y la lematización es reducir la variación morfológica. Esto contrasta con los procedimientos más generales de "combinación de términos", que también pueden abordar variaciones lexico-semánticas, sintácticas u ortográficas.
La diferencia real entre la derivación y la lematización es triple:
La derivación reduce las formas de las palabras a (pseudo) tallos, mientras que la lematización reduce las formas de las palabras a lemas válidos lingüísticamente. Esta diferencia es evidente en los idiomas con una morfología más compleja, pero puede ser irrelevante para muchas aplicaciones de IR;
La lematización se ocupa solo de la varianza flexiva, mientras que la derivación también puede tratar la varianza derivativa;
En términos de implementación, la lematización suele ser más sofisticada (especialmente para lenguajes morfológicamente complejos) y generalmente requiere algún tipo de léxico. La derivación satisfactoria, por otro lado, se puede lograr con enfoques bastante simples basados en reglas.
La lematización también puede estar respaldada por un etiquetador de parte del discurso para desambiguar homónimos.
fuente
Como MYYN señaló, la derivación es el proceso de eliminar afijos inflexionales y a veces derivados a una forma base con la que probablemente todas las palabras originales estén relacionadas. La lematización se refiere a la obtención de una sola palabra que le permita agrupar un conjunto de formas flexionadas. Esto es más difícil que la derivación porque requiere tener en cuenta el contexto (y, por lo tanto, el significado de la palabra), mientras que la derivación ignora el contexto.
En cuanto a cuándo usaría uno u otro, es una cuestión de cuánto depende su aplicación de obtener el significado de una palabra en contexto correcto. Si está haciendo traducción automática, probablemente desee lematizar para evitar traducir mal una palabra. Si está recuperando información de más de mil millones de documentos con un 99% de sus consultas que van desde 1 a 3 palabras, puede conformarse con la derivación.
En cuanto a NLTK, el WordNetLemmatizer utiliza la parte de la voz, aunque debe proporcionarlo (de lo contrario, el valor predeterminado es sustantivo). Pasarlo "paloma" y "v" produce "inmersión" mientras que "paloma" y "n" producen "paloma".
fuente
Una explicación basada en ejemplos sobre las diferencias entre lematización y derivación:
La lematización maneja la coincidencia de “automóvil” con “automóviles” junto con la coincidencia de “automóvil” con “automóvil”.
Stemming maneja emparejar "auto" con "autos" .
http://www.ideaeng.com/stemming-lemmatization-0601
fuente
ianacl
pero creo que Stemming es un truco duro que la gente usa para obtener todas las diferentes formas de la misma palabra en una forma base que no necesita ser una palabra legítima por sí misma
Algo como Porter Stemmer puede usar expresiones regulares simples para eliminar sufijos de palabras comunes
La lematización lleva una palabra a su forma base real que, en el caso de los verbos irregulares, podría no parecerse a la palabra de entrada
Algo como Morpha que usa FST para traer sustantivos y verbos a su forma base
fuente
La derivación simplemente elimina o deriva los últimos caracteres de una palabra, lo que a menudo conduce a significados y ortografías incorrectas. La lematización considera el contexto y convierte la palabra a su forma básica significativa, que se llama Lemma. A veces, la misma palabra puede tener múltiples Lemmas diferentes. Deberíamos identificar la etiqueta Parte de discurso (POS) para la palabra en ese contexto específico. Estos son los ejemplos para ilustrar todas las diferencias y casos de uso:
fuente
La derivación es el proceso de eliminar los últimos caracteres de una palabra dada, para obtener una forma más corta, incluso si esa forma no tiene ningún significado.
Ejemplos,
La derivación se puede hacer muy rápidamente.
La lematización, por otro lado, es el proceso de convertir la palabra dada en su forma básica de acuerdo con el significado del diccionario de la palabra.
Ejemplos,
La lematización lleva más tiempo que la derivación.
fuente