Я часто повторяю данные о финансовых ценах, хранящиеся в файле csv. Как доступность использования объектов pandas datetime для подмножества и организации данных, когда весь мой анализ выполняется относительно времени.
Моя проблема в том, что когда я читаю файл в памяти своего компьютера, bothe аргумент parse_dates
, поставленный top pandas.read_csv()
, а pandas.to_datetime()
невероятно дорогостоящий.
Кто-нибудь знает лучший способ иметь дело с отметками времени в python, которые могут быть оптимизированы для запуска многих файлов, которые необходимо загрузить в память?
%timeit pd.read_csv("C:\\Users\\rgalbo\\Desktop\\Equity\\Data\\sp - working data\\30min--Adj\\AAPL_24.csv",index_col=[0])
10 loops, best of 3: 112 ms per loop
с parse_date = True
%timeit pd.read_csv("C:\\Users\\rgalbo\\Desktop\\Equity\\Data\\sp - working data\\30min--Adj\\AAPL_24.csv",index_col=[0],parse_dates=True)
1 loops, best of 3: 7.5 s per loop