У меня есть набор предложений, и мне нужно проанализировать их, чтобы увидеть, насколько они похожи.
Существуют ли какие-либо установленные алгоритмы для этого?
Мне интересно:
- содержащий те же слова (без учета флексий на данный момент)
- содержащий те же слова в аналогичном порядке
Раньше я использовал расстояние Levenshtein и n-граммы для орфографии, хотя я не совсем уверен, если они переводят мои цели.
Наивно: "Меня не интересуют различия в орфографии, опечатки можно рассматривать как разные слова", хотя, возможно, было бы неплохо объяснить это.
возможно, какой-то гибрид расщепления предложения в пространствах и один из вышеупомянутых (или других) алгоритмов будет отправной точкой
Какие опции доступны? Любые советы?
Спасибо!