Я хочу сравнить несколько строк друг с другом и найти те, которые наиболее похожи. Мне было интересно, есть ли какая-либо библиотека, метод или лучшая практика, которая вернет мне, какие строки больше похожи на другие строки. Например:
- "Быстрая лиса прыгнула" → "Лиса прыгнула"
- "Быстрая лиса подпрыгнула" → "Лиса"
Это сравнение вернет, что первое более похоже на второе.
Я думаю, мне нужен какой-то метод, например:
double similarityIndex(String s1, String s2)
Есть ли такая вещь где-то?
EDIT: Почему я это делаю? Я пишу script, который сравнивает вывод файла MS Project с выходом какой-либо старой системы, которая обрабатывает задачи. Поскольку унаследованная система имеет очень ограниченную ширину поля, при добавлении значений описания сокращаются. Мне нужен полуавтоматический способ найти, какие записи из MS Project похожи на записи в системе, поэтому я могу получить сгенерированные ключи. У этого есть недостатки, поскольку он должен быть все еще проверен вручную, но это сэкономит много работы.