¿Por qué agregar uno en frecuencia de documento inversa?

Mi libro de texto enumera el idf como donde $log(1+\frac{N}{n_t})$

$N$ : número de documentos
$n_t$ : número de documentos que contienen el término $t$

Wikipedia enumera esta fórmula como una versión suavizada del real . Eso lo entiendo: varía de a que parece intuitivo. Pero va de a que parece extraño ... Sé un poco sobre el suavizado del modelado de idiomas, pero allí agregarías algo en el numerador así como en el denominador porque le preocupa la masa de probabilidad. Pero solo agregar no tiene sentido para mí. ¿Qué estamos tratando de lograr aquí? $log(\frac{N}{n_t})$ $log(\frac{N}{N})=0$ $\infty$
$log(1+\frac{N}{n_t})$ $log(1+1)$ $\infty$
$1$

text-mining natural-language smoothing usuario2740
fuente

relacionado, pero no un duplicado: stats.stackexchange.com/questions/152182/…

Sycorax dice Reinstate Monica

El suavizado correcto será

\log (\frac{N}{(1 + n_{t})})

$\log(\frac N {(1+n_{t})})$

ashishpatel.co.in el

Respuestas:

Como verá en otro lugar que se discute tf-idf, no existe una fórmula única universalmente aceptada para calcular tf-idf o incluso (como en su pregunta) idf . El propósito del es lograr uno de dos objetivos: a) evitar la división por cero , como cuando un término no aparece en ningún documento, a pesar de que esto no sucedería en un enfoque estrictamente "bolsa de palabras", o b) para establecer un límite inferior para evitar que un término tenga un peso cero solo porque aparece en todos los documentos. $+ 1$

En realidad, nunca he visto el formulación , aunque mencionas un libro de texto. Pero el propósito sería establecer un límite inferior de lugar de cero, como interpreta correctamente. He visto 1 + , que establece un límite inferior de 1. El cálculo más utilizado parece ser , como en Manning, Christopher D, Prabhakar Raghavan e Hinrich Schütze (2008) Introducción a la recuperación de información , Cambridge University Press, p118 o Wikipedia (basado en fuentes similares). $log(1+\frac{N}{n_t})$ $log(2)$ $log(\frac{N}{n_t})$ $log(\frac{N}{n_t})$

No es directamente relevante para su consulta, pero el límite superior no es , sino donde dependiendo de su formulación de suavizado. Esto sucede para los términos que aparecen en 0 o 1 documentos (de nuevo, depende de si suaviza con para definirlo para términos con frecuencia de documento cero; de lo contrario, el valor máximo se produce para los términos que aparecen en un solo documento). IDF cuando y . $\infty$ $k + log(N/s)$ $k, s \in {0, 1}$ $s$ $\rightarrow \infty$ $1 + n_t=1$ $N \rightarrow \infty$

Ken Benoit
fuente