В настоящее время я использую приведенный ниже код для импорта 6 000 csv файлов (с заголовками) и экспорта их в один файл csv (с одной строкой заголовка).
#import csv files from folder
path =r'data/US/market/merged_data'
allFiles = glob.glob(path + "/*.csv")
stockstats_data = pd.DataFrame()
list_ = []
for file_ in allFiles:
df = pd.read_csv(file_,index_col=None,)
list_.append(df)
stockstats_data = pd.concat(list_)
print(file_ + " has been imported.")
Этот код работает нормально, но он медленный. Это может занять до 2 дней.
Мне была предоставлена одна строка script для командной строки терминала, которая делает то же самое (но без заголовков). Этот script занимает 20 секунд.
for f in *.csv; do cat "`pwd`/$f" | tail -n +2 >> merged.csv; done
Кто-нибудь знает, как я могу ускорить первый Python script? Чтобы сократить время, я подумал о том, чтобы не импортировать его в DataFrame и просто конкатенации CSV, но я не могу понять это.
Спасибо.