Многие сайты предлагают некоторую статистику, например, "Самые горячие темы за последние 24 часа". Например, Topix.com показывает это в разделе "Тенденции новостей". Там вы можете увидеть темы, которые имеют наиболее быстро растущее число упоминаний.
Я хочу вычислить такой "гул" для темы тоже. Как я мог это сделать? Алгоритм должен взвешивать темы, которые всегда менее горячие. Темы, которые обычно (почти) никто не упоминает, должны быть самыми горячими.
Google предлагает "Горячие тренды", topix.com показывает "Горячие темы", fav.or.it показывает "Тенденции ключевых слов" - у всех этих сервисов есть одна общая черта: они показывают только предстоящие тренды, которые в настоящий момент необычайно горячи.
Такие термины, как "Бритни Спирс", "погода" или "Пэрис Хилтон", не появятся в этих списках, потому что они всегда горячие и частые. Эта статья называет это "Проблема Бритни Спирс".
Мой вопрос: как вы можете написать алгоритм или использовать существующий для решения этой проблемы? Имея список с ключевыми словами, которые искали за последние 24 часа, алгоритм должен показать вам 10 (например) самых горячих.
Я знаю, в вышеприведенной статье упоминается какой-то алгоритм. Я пытался закодировать это в PHP, но я не думаю, что это будет работать. Это просто находит большинство, не так ли?
Я надеюсь, что вы можете помочь мне (примеры кодирования были бы хорошими).