Estaba leyendo:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Pero parece que no puedo entender exactamente por qué la fórmula se construyó de la manera en que está.
Lo que sí entiendo:
iDF debería medir en algún nivel la frecuencia con la que aparece un término S en cada uno de los documentos, disminuyendo su valor a medida que el término aparece con mayor frecuencia.
Desde esa perspectiva
Además, la frecuencia de término puede describirse correctamente como
Entonces la medida
es de alguna manera proporcional a la frecuencia con la que aparece un término en un documento determinado y cuán único es ese término en el conjunto de documentos.
Lo que no entiendo
Pero la fórmula dada lo describe como
Deseo comprender la necesidad de los logaritmos descritos en la definición. ¿Por qué están ahí? ¿Qué aspecto enfatizan?
\log
, los olvido constantemente); +1 a ambos. He visto el artículo de Robertson y contemplé agregarlo; es una muy buena lectura, la agregaré en el cuerpo principal.number of occurrences for all strings in document D
. ¿Por qué queremos el recuento de la palabra más común en lugar del recuento de todas las palabras?