Comprender el uso de logaritmos en el logaritmo TF-IDF

Estaba leyendo:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Pero parece que no puedo entender exactamente por qué la fórmula se construyó de la manera en que está.

Lo que sí entiendo:

iDF debería medir en algún nivel la frecuencia con la que aparece un término S en cada uno de los documentos, disminuyendo su valor a medida que el término aparece con mayor frecuencia.

Desde esa perspectiva

yo re F (S) = \frac{# # de documentos}{# # de documentos que contienen S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

Además, la frecuencia de término puede describirse correctamente como

t F (S, re) = \frac{# # de ocurrencias de S en el documento D}{# # Número máximo de ocurrencias para cualquier cadena Q en el documento D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

Entonces la medida

yo re F (S) \times t F (S, re)

$iDF(S) \times tf(S,D)$

es de alguna manera proporcional a la frecuencia con la que aparece un término en un documento determinado y cuán único es ese término en el conjunto de documentos.

Lo que no entiendo

Pero la fórmula dada lo describe como

(Iniciar sesión (yo re F (S))) (\frac{1}{2} + Iniciar sesión (\frac{1}{2} t F (S, re)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

Deseo comprender la necesidad de los logaritmos descritos en la definición. ¿Por qué están ahí? ¿Qué aspecto enfatizan?

machine-learning clustering mathematical-statistics text-mining natural-language guisantes
fuente

Respuestas:

El aspecto enfatizado es que la relevancia de un término o un documento no aumenta proporcionalmente con la frecuencia del término (o documento). El uso de una función sub-lineal, por lo tanto, ayuda a reducir este efecto. En ese sentido, también se amortiza la influencia de valores muy grandes o muy pequeños (por ejemplo, palabras muy raras). Finalmente, como la mayoría de las personas perciben intuitivamente que las funciones de puntuación son algo aditivas usando logaritmos, la probabilidad de que diferentes términos independientes de parezcan más a . $P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

Como señala el artículo de Wikipedia que vincula, la justificación de TF-IDF todavía no está bien establecida; Es / fue una heurística que queremos hacer riguroso, no un concepto riguroso que queremos transferir al mundo real. Según lo mencionado por @ Anony-Mousse como una muy buena lectura sobre el tema, Robertson entiende la frecuencia inversa de documentos: sobre argumentos teóricos para las FDI . Ofrece una visión general de todo el marco e intenta basar la metodología TF-IDF en la ponderación de relevancia de los términos de búsqueda.

usεr11852
fuente

Se puede encontrar alguna justificación de TF-IDF en "Un estudio formal de heurística de recuperación de información", 2004 por Fang, Hui et al ( pdf ).

Alexey Grigorev

Creo que esta es la mejor referencia para las justificaciones TF-IDF: Robertson, S. (2004). "Entender la frecuencia de documentos inversa: sobre argumentos teóricos para IDF". Journal of Documentation 60 (5): 503–520.

HA SALIDO - Anony-Mousse

Gracias por sus comentarios, caballeros (y gracias especiales Alexey por la corrección \log, los olvido constantemente); +1 a ambos. He visto el artículo de Robertson y contemplé agregarlo; es una muy buena lectura, la agregaré en el cuerpo principal.

usεr11852

@ Anony-Mousse (pdf)

Walrus the Cat

Quiero saber por qué se usa "número máximo de ocurrencias para cualquier cadena Q en el documento D" en lugar de number of occurrences for all strings in document D. ¿Por qué queremos el recuento de la palabra más común en lugar del recuento de todas las palabras?

Xeoncross