Я пытаюсь сделать машинное обучение в реальном наборе данных (отзывы об отелях). К сожалению, он страдает от спама, который приходит в виде почти идентичных обзоров, что усложняет мне ситуацию.
Я хотел бы удалить "почти дубликаты" из набора данных на основе расстояния редактирования или чего-то подобного, а так как размер набора данных > 100 Кбайт, алгоритм должен быть субквадратичным по размеру набора данных. Сейчас я могу только подумать о том, чтобы помечать отдельные предложения или фразы, которые повторяются слишком часто, а затем удалять все отзывы, которые есть у них, но легко понять, как такая стратегия может иметь неприятные последствия. Есть ли общий алгоритм, который лучше работает?