Я предполагаю, что это простое исправление, но я столкнулся с проблемой, когда занимает около часа, чтобы сохранить фреймворк pandas в файл csv с помощью to_csv() функция. Я использую anaconda python 2.7.12 с pandas (0.19.1).
import os
import glob
import pandas as pd
src_files = glob.glob(os.path.join('/my/path', "*.csv.gz"))
# 1 - Takes 2 min to read 20m records from 30 files
for file_ in sorted(src_files):
    stage = pd.DataFrame()
    iter_csv = pd.read_csv(file_
                     , sep=','
                     , index_col=False
                     , header=0
                     , low_memory=False
                     , iterator=True
                     , chunksize=100000
                     , compression='gzip'
                     , memory_map=True
                     , encoding='utf-8')
    df = pd.concat([chunk for chunk in iter_csv])
    stage = stage.append(df, ignore_index=True)
# 2 - Takes 55 min to write 20m records from one dataframe
stage.to_csv('output.csv'
             , sep='|'
             , header=True
             , index=False
             , chunksize=100000
             , encoding='utf-8')
del stage
Я подтвердил, что аппаратное обеспечение и память работают, но это довольно широкие таблицы (~ 100 столбцов) в основном числовые (десятичные) данные.
Спасибо,