В Интернете много обсуждений по теме сортировки огромных файлов в Unix, когда данные не помещаются в память. Как правило, использование mergesort и вариантов.
Как бы там ни было, если бы было достаточно памяти, чтобы вместить в нее все данные, что может быть самым эффективным/самым быстрым способом сортировки? Файлы csv составляют ~ 50 ГБ ( > 1 миллиард строк), и для хранения всех данных достаточно памяти (5x размера данных).
Я могу использовать Unix-сортировку, но это все еще занимает > 1 час. Я могу использовать любой необходимый язык, но то, что я в первую очередь ищу, это скорость. Я понимаю, что мы можем загружать данные в таблицу столбцов типа db и сортировать, но это одноразовое усилие, поэтому поиск чего-то более проворного...
Спасибо заранее.