Я собираю списки концертов из нескольких разных источников, ни один из которых не является полным и точным. Некоторые данные поступают от пользователей (например, на last.fm) и могут быть неверными. Другие источники данных очень точные, но не могут содержать каждое событие. Я могу использовать атрибуты, такие как дата события, и город/штат, чтобы попытаться сопоставить списки из разных источников. Я хотел бы быть достаточно уверенным, что события действительны. Похоже, что было бы хорошей стратегией использовать как можно больше различных источников для проверки списков источников, подверженных ошибкам.
Я не уверен, что такое технический термин для этого, поскольку я хотел бы исследовать его дальше. Это интеллектуальный анализ данных? Существуют ли существующие алгоритмы? Я понимаю, что решение никогда не будет полностью точным.