У меня есть приложение, которое сбрасывает результаты футбола из разных источников в Интернете. Имена команд несовместимы на разных сайтах - например, "Манчестер Юнайтед" можно назвать "Манчестер Юнайтед" на одном сайте, "Манчестер Юнайтед" - на втором, "Манчестер Юнайтед" - на третьем. Мне нужно сопоставить все возможные выводы с одним именем ( "Манчестер Юнайтед" ) и повторить процесс для каждой из 20 команд в лиге ( "Арсенал", "Ливерпуль", "Ман Сити" и т.д.). Очевидно, что мне не нужны плохие матчи [например, "Man City" сопоставляется с "Манчестер Юнайтед" ).
Прямо сейчас я задаю регулярные выражения для всех возможных комбинаций - например, "Манчестер Юнайтед" будет "человек (честер)" (u | (utd) | (объединенный)) (fc)? '; это хорошо для нескольких сайтов, но становится все более громоздким. Я ищу решение, которое позволит избежать необходимости указывать эти регулярные выражения. Например, должен быть способ "забить" Манчестер Юнайтед, поэтому он получает высокий балл против "Манчестер Юнайтед" , но низкий/нулевой балл против "Ливерпуля" [например]; Я бы тестировал образец текста на все возможные решения и выбирал тот, у которого был самый высокий балл.
Я считаю, что решение может быть похоже на классический пример обучения нейронной сети распознавания рукописного текста (т.е. существует фиксированный набор возможных результатов и степень шума в входных выборках)
У кого-нибудь есть идеи?
Спасибо.