Я сохранил много новостей из RSS-каналов из разных источников в индексе elasticsearch. В тот момент, когда я выполняю поисковый запрос, он вернет мне много похожих новостных статей для одного запроса, потому что одни и те же темы новостей охвачены многими источниками RSS.
Вместо того, что я хотел бы сделать, это вернуть только одну новостную статью из группы статей в ту же тему. Поэтому мне почему-то нужно распознать, какие статьи касаются одной и той же темы, сгруппировать эти документы и вернуть только "лучшую" статью из такого кластера.
Каким будет наиболее удобный способ решения этой проблемы? Могу ли я каким-то образом использовать elasticsearch более похожим на этот API? Или это https://github.com/carrot2/elasticsearch-carrot2 плагин, куда идти? Или просто нет удобного способа, и я должен каким-то образом реализовать свою собственную версию http://en.wikipedia.org/wiki/K-means_clustering или http://en.wikipedia.org/wiki/Non-negative_matrix_factorization, чтобы скопировать мои документы?