Это больше вопрос понимания, чем программирования. Я новичок в Pandas и SQL. Я использую Pandas для чтения данных из SQL с некоторым определенным chunksize. Когда я запускаю sql-запрос, например. import Pandas как pd
df = pd.read_sql_query('select name, birthdate from table1', chunksize = 1000)
То, что я не понимаю, - это когда я не даю chunksize, данные хранятся в памяти, и я могу видеть рост памяти, однако, когда я даю chunksize, использование памяти не так уж и велико.
У меня есть то, что этот df теперь содержит несколько массивов, к которым я могу получить доступ как
for df_array in df:
print df.head(5)
То, что я не понимаю здесь, - это то, что весь результат инструкции SQL хранится в памяти, т.е. df - это объект, несущий несколько массивов, или если они похожи на указатели, указывающие на таблицу temp, созданную SQL-запросом.
Я был бы очень рад узнать, как этот процесс действительно работает.