В настоящее время я работаю над проектом, который требует от нас сопоставления нашей базы данных о группах и площадках с рядом внешних служб.
В основном я ищу какое-то направление для лучшего метода определения того, совпадают ли два имени. Например:
- Название нашей базы данных - "Свиньи и свисток"
- сервис 1 - "Свиньи и свисток"
- сервис 2 - "Свиньи и свисток"
- и т.д.
Я думаю, что главными отличиями будут такие вещи, как отсутствие "the" или использование "&". вместо "и", но также могут быть такие вещи, как несколько разные слова и слова в разных порядках.
Какие алгоритмы/методы обычно используются в этой ситуации, нужно ли фильтровать шумовые слова или выполнять какой-либо тип проверки орфографии?
Вы видели какие-то примеры чего-то simlar в С#?
UPDATE: если кто-то заинтересован в примере aС#, вы можете получить кучу, выполнив поиск кода google для расстояния Levenshtein