Мне нужно сравнить документы, хранящиеся в БД, и составить показатель подобия между 0 и 1.
Метод, который мне нужно использовать, должен быть очень простым. Реализация ванильной версии n-граммов (где можно определить, сколько граммов использовать), наряду с простой реализацией сходства tf-idf и косинуса.
Есть ли какая-нибудь программа, которая может это сделать? Или я должен начать писать это с нуля?