Я конвертирую большой текстовый файл в hdf-хранилище в надежде на быстрый доступ к данным. Преобразование работает в порядке, однако чтение из файла csv не выполняется параллельно. Он очень медленный (занимает около 30 минут для текстового файла 1 ГБ на SSD, поэтому я предполагаю, что он не привязан к IO).
Есть ли способ прочитать его в нескольких потоках в parralel? Sice это может быть важно, я в настоящее время вынужден работать под Windows - на всякий случай, что имеет значение.
from dask import dataframe as ddf
df = ddf.read_csv("data/Measurements*.csv",
sep=';',
parse_dates=["DATETIME"],
blocksize=1000000,
)
df.categorize([ 'Type',
'Condition',
])
df.to_hdf("data/data.hdf", "Measurements", 'w')