Почему журнал используется при расчете весового коэффициента частоты и IDF, инверсная частота документа?

Формула для IDF представляет собой log (N/df t), а не только N/df t.

Где N = общие документы в коллекции, а df t = частота документа в терминах t.

Говорят, что журнал используется, потому что он "гасит" эффект ИДФ. Что это значит?

Кроме того, почему мы используем взвешивание частоты в регистре для временной частоты, как показано здесь:

Ответ 1

Дебазис ответ правильный. Я не уверен, почему он получил отрицательный голос.

Вот интуиция: если термин "частота" для слова "компьютер" в doc1 равен 10, а в doc2 - 20, мы можем сказать, что doc2 является более значимым, чем doc1, для слова "компьютер".

Тем не менее, если термин "частота" одного и того же слова "компьютер" для doc1 равен 1 миллиону, а doc2 равен 2 миллионам, на данном этапе больше не будет существенной разницы с точки зрения релевантности, поскольку оба они содержат очень высокий счет для термина "компьютер".

Точно так же, как и в ответе Дебазиса, добавление журнала призвано снизить значимость высокочастотных терминов, например, при использовании базы 2 журналов счет 1 миллион будет уменьшен до 19,9!

Мы также добавляем 1 к log (tf), потому что когда tf равно 1, log (1) равно нулю. Добавляя единицу, мы различаем tf = 0 и tf = 1.

Надеюсь это поможет!

Ответ 2

Не обязательно, чтобы большее значение термина в документе больше было релевантности... вклад временной частоты в соответствие с документацией является по существу сублинейной функцией... следовательно, журнал приближает эту сублинейную функцию функция...

то же самое применимо и для idf... линейная функция idf может слишком сильно увеличивать количество документов с высокими значениями idf (что может быть редкостью из-за орфографических ошибок)... сублинейная функция работает намного лучше...

Ответ 3

Вы можете думать, что мы получаем информационное содержание слова во всем корпусе, т.е. информационное содержимое = -log (p) = -log (n_i/N) = log (N/n_i).