Что такое алгоритм поиска?

Какой алгоритм использует твиттер, чтобы определить 10 тем, которые вы можете увидеть на search.twitter.com? Я хотел бы реализовать этот алгоритм, и я также хотел бы показать 50 наиболее популярных тем (вместо 10). Можете ли вы описать наиболее эффективный алгоритм?

Спасибо!

(API Twitters можно найти в http://apiwiki.twitter.com/REST%20API%20Documentation)

Кроме того, я хотел бы иметь возможность реализовать алгоритм путем поиска по общедоступной временной шкале - http://twitter.com/statuses/public_timeline.rss

Ответ 1

Твиттер-алгоритм Twitter - это не просто количество ключевых слов. Эта часть его, но есть также фактор распада, так что "justin beiber" не всегда является трендом навсегда.

Этот пост на quora поддерживает это. http://www.quora.com/Trending-Topics-Twitter/What-is-the-basis-of-Twitters-current-Trending-Topics-algorithm?q=trending+algorithm

распад обычно делается с использованием относительного возраста поста в алгоритме, дающего больший вес более новым темам/сообщениям и т.д.

см. также http://www.quora.com/What-tools-algorithms-or-data-structures-would-you-use-to-build-a-Trending-Topics-algorithm-for-a-high-velocity-stream?q=trending+algorithm

Ответ 2

Так что, вероятно, что делает Twitter, он подсчитывает количество упоминаний определенного термина минус стоп-слова (останавливайте такие слова, как: do, me, you, I, not, on и т.д.), Так что "кошка выходит из сумки" и "моя собака съела мою кошку" означала бы, что кошка, собака и сумка будут терминами, которые она извлекала (остальное - все слова остановки) И тогда он учитывает "кошку" как 2 ссылки, поэтому "cat" будет в этом случае трендом.