У меня есть два файла субтитров. Мне нужна функция, которая сообщает, представляют ли они один и тот же текст или аналогичный текст
Иногда бывают такие комментарии, как "Ветер дует... музыка играет" только в одном файле. Но 80% процентов будет одинаковым. Функция должна возвращать TRUE (файлы представляют один и тот же текст). И иногда встречаются орфографические ошибки, такие как 1 вместо l (один - L), как здесь: Она достала багаж. Конечно, это означает, что функция должна возвращать TRUE.
Мои комментарии:
Функция должна возвращать процент сходства текстов - AGREE
"все люди были счастливы" и "все люди были недовольны" - здесь это будет рассматриваться как орфографическая ошибка, так что это будет считаться одним и тем же текстом. Точнее, процент возвращаемой функции будет ниже, но достаточно высок, чтобы сказать, что фразы похожи.
Учтите, хотите ли вы применить Levenshtein на весь файл или только строку поиска - не уверены в Levenshtein, но алгоритм должен применяться к файлу в целом. Это будет очень длинная строка.