Как я могу получить n
случайные строки из очень больших файлов, которые не могут вписаться в память.
Также было бы здорово, если бы я мог добавлять фильтры до или после рандомизации.
update 1
в моем случае спецификации:
- > 100 миллионов строк
- > 10GB файлы
- обычный случайный размер партии 10000-30000
- 512RAM размещен на сервере ubuntu 14.10
поэтому потеря нескольких строк из файла не будет такой большой проблемой, поскольку в любом случае у них есть шанс 1 на 10000, но проблема с производительностью и ресурсами будет проблемой