Импорт файлов csv & xlsx в фреймворк pandas: скорость

Чтение данных (всего 20000 номеров) из файла xlsx выполняется навсегда:

import pandas as pd
xlsxfile = pd.ExcelFile("myfile.xlsx")
data = xlsxfile.parse('Sheet1', index_col = None, header = None)

занимает около 9 секунд.

Если я сохраняю тот же файл в формате csv, он принимает ~ 25ms:

import pandas as pd
csvfile = "myfile.csv"
data = pd.read_csv(csvfile, index_col = None, header = None)

Это проблема openpyxl или я что-то упускаю? Есть ли альтернативы?

Ответ 1

xlrd поддерживает файлы .xlsx, и этот ответ предполагает, что по крайней мере бета-версия xlrd с поддержкой .xlsx была быстрее, чем openpyxl.

Текущая стабильная версия Pandas (11.0) использует openpyxl для файлов .xlsx, но это было изменено для следующей версии. Если вы хотите отдать это, вы можете загрузить версию dev из GitHub