Мне нужно удалить повторяющиеся строки из чрезвычайно большого текстового файла (100 Gb +)
Так как удаление дубликатов памяти является безнадежным из-за размера данных, я попробовал bloomfilter, но не использовал ничего, кроме 50 миллионов строк.
суммарные строки равны 1 триллиону +
Я хочу знать, каковы способы решения этой проблемы.
Моя первоначальная попытка состоит в том, чтобы делить файл на количество подфайлов, отсортировать каждый файл, а затем объединить все файлы вместе...
Если у вас есть лучшее решение, чем это, пожалуйста, дайте мне знать,
Спасибо..