Недавно я наткнулся на вопрос интервью, чтобы создать алгоритм на любом языке, который должен выполнять следующие
- Прочитайте 1 терабайт контента
- Сделать счет для каждого повторного слова в этом содержании
- Список 10 наиболее часто встречающихся слов
Не могли бы вы сообщить мне наилучший способ создания алгоритма для этого?
Edit:
ОК, скажем, контент на английском языке. Как мы можем найти 10 самых популярных слов в этом контенте? Мое другое сомнение заключается в том, что если они намеренно предоставляют уникальные данные, тогда наш буфер истечет с переполнением размера кучи. Мы также должны справиться с этим.