Я пытаюсь сгруппировать поток Twitter. Я хочу поместить каждый твит в кластер, который говорит об одной и той же теме. Я попытался сгруппировать поток, используя алгоритм онлайн-кластеризации с подобием tf/idf и косинусом, но я обнаружил, что результаты довольно плохие.
Основными недостатками использования tf/idf являются то, что он кластеризует документы, похожие на ключевые слова, поэтому полезно идентифицировать почти идентичные документы. Например, рассмотрим следующие предложения:
1- Веб-сайт Stackoverflow - прекрасное место. 2- Stackoverflow - это веб-сайт.
Предыдущие два предложения, скорее всего, будут объединены вместе с разумным пороговым значением, поскольку у них есть много ключевых слов. Но теперь рассмотрим следующие два предложения:
1- Веб-сайт Stackoverflow - прекрасное место. 2- Я регулярно посещаю Stackoverflow.
Теперь, используя tf/idf, алгоритм кластеризации потерпит неудачу, потому что они разделяют только одно ключевое слово, даже если оба говорят об одной теме.
Мой вопрос: есть ли лучшие методы для кластерных документов?