Алгоритм сравнения подобия английских предложений

У меня есть набор предложений, и мне нужно проанализировать их, чтобы увидеть, насколько они похожи.

Существуют ли какие-либо установленные алгоритмы для этого?

Мне интересно:

  • содержащий те же слова (без учета флексий на данный момент)
  • содержащий те же слова в аналогичном порядке

Раньше я использовал расстояние Levenshtein и n-граммы для орфографии, хотя я не совсем уверен, если они переводят мои цели.

Наивно: "Меня не интересуют различия в орфографии, опечатки можно рассматривать как разные слова", хотя, возможно, было бы неплохо объяснить это.

возможно, какой-то гибрид расщепления предложения в пространствах и один из вышеупомянутых (или других) алгоритмов будет отправной точкой

Какие опции доступны? Любые советы?

Спасибо!

Ответ 1

В этом документе сравнивается несколько мер сходства предложений. Возможно, вы можете использовать один из них как есть или изменить его для своих нужд.

В противном случае критерий подобия предложения является хорошим ключевым термином для google для.

Ответ 2

Чтобы игнорировать перегибы, вы должны изучить алгоритмы генерации: http://en.wikipedia.org/wiki/Porter_stemmer

Они сводят слова к их корневым формам.