La respuesta es muy directa: TF-IDF puede lograr mejores resultados que las frecuencias de término simples cuando se combina con algunos métodos supervisados.
El ejemplo canónico está usando la similitud de coseno como una medida de similitud entre documentos. Tomar el coseno del ángulo entre la representación vectorial de documentos TF-IDF puede recuperar con éxito documentos similares relevantes con mayor precisión que TF solo.
Esto se debe a que IDF reduce el peso dado a las palabras comunes y resalta las palabras poco comunes en un documento. La mayoría de los artículos de noticias no son sobre avestruces, por lo que un artículo de noticias que contenga "avestruz" es inusual, y nos gustaría saberlo cuando intentemos encontrar documentos similares.
Pero en el caso de la categorización de texto utilizando técnicas de LD supervisadas estándar, ¿por qué molestarse en la disminución de la frecuencia de los documentos en el corpus? ¿El alumno no decidirá la importancia de asignar a cada palabra / combinación de palabras?
Esto ilustra un punto clave en el aprendizaje automático: las mejores características tienden a vencer a un algoritmo más inteligente. Una herramienta de ML solo está tratando de aprender una función para asignar entradas (s) a salidas (s) . Si nuestra representación de es tan buena que ya son básicamente (o, en un caso ideal, literalmente sonXyXyy), entonces hemos hecho la tarea mucho más fácil para nosotros y para nuestras computadoras pobres y con exceso de trabajo. Creo que este es un componente poco apreciado del campo: las personas pasan mucho tiempo estudiando y considerando los algoritmos porque son independientes del dominio, pero saber más sobre sus datos y el problema que está tratando de resolver puede sugerir caminos para mejor recopilación de datos o representación de datos que hacen la tarea mucho más fácil, y tan fácil que un modelo de sofisticación adornada es innecesario.
Aquí se pueden encontrar varios recursos , que reproduzco por conveniencia.
K. Sparck Jones. "Una interpretación estadística de la especificidad del término y su aplicación en la recuperación". Revista de Documentación, 28 (1). 1972.
G. Salton y Edward Fox y Wu Harry Wu. "Recuperación de información booleana extendida". Comunicaciones de la ACM, 26 (11). 1983.
G. Salton y MJ McGill. "Introducción a la recuperación de información moderna". 1983
G. Salton y C. Buckley. "Enfoques de ponderación de término en la recuperación automática de texto". Procesamiento y gestión de la información, 24 (5). 1988.
H. Wu y R. Luk y K. Wong y K. Kwok. "Interpretar ponderaciones de término TF-IDF como tomar decisiones de relevancia". Transacciones de ACM en sistemas de información, 26 (3). 2008
En el caso típico, podría tener muchos más documentos en su corpus que los documentos etiquetados. Eso significa que el IDF se puede calcular de manera mucho más precisa y completa cuando se usa todo el corpus.
A continuación, considere el caso en el que el corpus que puede tener hasta ahora está etiquetado o el subconjunto etiquetado es "lo suficientemente grande". En este caso, el número de iteraciones necesarias para el entrenamiento podría ser menor cuando se usa TfIDF porque el algoritmo de aprendizaje no necesitaría aprender tanto.
Finalmente, en este mismo caso, también podría proporcionar tf solamente, o tf e idf por separado (o incluso incluir tfidf también). Creo que esto podría generar mejores resultados, por ejemplo, cuando se utiliza una función de kernel sofisticada.
fuente