У меня очень большой набор данных, и я не могу позволить себе прочитать весь набор данных. Итак, я подумываю прочитать только один кусок его, чтобы тренироваться, но я понятия не имею, как это сделать. Любая мысль будет оценена.
Python Pandas: Как читать только первые n строк CSV файлов?
Ответ 1
Если вы хотите только прочитать первые 999,999 (без заголовка) строк:
read_csv(..., nrows=999999)
Если вы хотите читать строки только 1 000 000... 1,999,999
read_csv(..., skiprows=1000000, nrows=999999)
nrows: int, default None Количество строк файла для чтения. Полезно для чтение кусков больших файлов *
skiprows: список или целое число Номера строк для пропуска (0-индексированные) или количества строк для пропуска (int) в начале файла
и для больших файлов вы, вероятно, также захотите использовать chunksize:
chunksize: int, по умолчанию Нет Возвращает объект TextFileReader для итерации