Я занимаюсь нормализацией клинических сообщений (проверка орфографии), в которой я проверяю каждое данное слово по медицинскому словарю в 900 000 слов. Меня больше беспокоит сложность времени/производительность.
Я хочу сделать нечеткое сравнение строк, но я не уверен, какую библиотеку использовать.
Опция 1:
import Levenshtein
Levenshtein.ratio('hello world', 'hello')
Result: 0.625
Вариант 2:
import difflib
difflib.SequenceMatcher(None, 'hello world', 'hello').ratio()
Result: 0.625
В этом примере оба дают одинаковый ответ. Как вы думаете, оба работают одинаково в этом случае?