Сегодня я впервые сделал свой первый детский шаг в реальных научных вычислениях, когда мне показали набор данных, где наименьший файл содержит 48000 полей на 1600 строк (гаплотипы для нескольких человек, для хромосомы 22). И это считается крошечным.
Я пишу Python, поэтому последние несколько часов читал о HDF5, Numpy и PyTable, но я все еще чувствую, что я не очень разбираюсь в том, что набор данных размером в терабайт фактически означает для меня, как программист.
Например, кто-то отметил, что с большими наборами данных становится невозможным прочитать все это в памяти, а не потому, что у машины недостаточно ОЗУ, а потому, что в архитектуре недостаточно адресного пространства! Это взорвало мое сознание.
Какие еще предположения я полагался в классе, который просто не работает с вводом этого большого? Какие вещи мне нужно, чтобы начать делать или думать по-другому? (Это не должно быть специфичным для Python.)