Как получить определенные столбцы из pandas HDFStore? Я регулярно работаю с очень большими наборами данных, которые слишком велики для управления в памяти. Я хотел бы прочитать в CSV файле итеративно, добавить каждый кусок в объект HDFStore, а затем работать с подмножествами данных. Я прочитал простой файл csv и загрузил его в HDFStore со следующим кодом:
tmp = pd.HDFStore('test.h5')
chunker = pd.read_csv('cars.csv', iterator=True, chunksize=10, names=['make','model','drop'])
tmp.append('df', pd.concat([chunk for chunk in chunker], ignore_index=True))
И вывод:
In [97]: tmp
Out[97]:
<class 'pandas.io.pytables.HDFStore'>
File path: test.h5
/df frame_table (typ->appendable,nrows->1930,indexers->[index])
Мой вопрос: как мне получить доступ к определенным столбцам из tmp['df']
? В документах упоминается метод select()
и некоторые объекты Term
. Приведенные примеры применяются к данным Panel; однако, я слишком много начинаю, чтобы распространить его на более простой случай с фреймами данных. Я предполагаю, что мне нужно как-то создать индекс столбцов. Спасибо!