Я хочу упаковать гигантскую последовательность ДНК с помощью приложения iOS (около 3 000 000 000 пар оснований). Каждая базовая пара может иметь значение A
, C
, T
или G
. Хранение каждой базовой пары за один байт даст файл размером 3 ГБ, что слишком много.:)
Теперь я хочу сохранить каждую базовую пару в двух битах (четыре пары базовых на октет), которая дает файл 750 МБ. 750 МБ по-прежнему слишком много, даже при сжатии.
Есть ли лучшие форматы файлов для эффективного хранения гигантских пар оснований на диске? В памяти не проблема, поскольку я читаю куски.