У меня есть набор наборов данных csv размером около 10 ГБ каждый. Я хотел бы генерировать гистограммы из своих столбцов. Но кажется, что единственный способ сделать это в numpy - сначала загрузить весь столбец в массив numpy, а затем вызвать numpy.histogram
в этом массиве. Это потребляет ненужный объем памяти.
Поддерживает ли numpy интерактивное бининг? Я надеюсь на что-то, что итерации по моей линии csv по строке и значениям бинов, когда они читают их. Таким образом, не более одной строки в памяти может быть в любой момент.
Не было бы сложно катиться самостоятельно, но интересно, кто-то уже изобрел это колесо.