У меня есть большая коллекция текстов, где каждый текст быстро растет. Мне нужно выполнить поиск подобия.
Идея состоит в том, чтобы вставлять каждое слово как word2vec и представлять каждый текст как нормированный вектор посредством вектора, добавляя в него вложения каждого слова. Последующие дополнения к тексту приведут только к уточнению результирующего текстового вектора путем добавления к нему новых векторов.
Можно ли использовать поиск elastics для подобия косинуса, сохраняя только координаты каждого нормализованного вектора текста в документе? Если да, то какова надлежащая структура индекса для такого поиска?