Python Pandas: Как читать только первые n строк CSV файлов?

У меня очень большой набор данных, и я не могу позволить себе прочитать весь набор данных. Итак, я подумываю прочитать только один кусок его, чтобы тренироваться, но я понятия не имею, как это сделать. Любая мысль будет оценена.

Ответ 1

Если вы хотите только прочитать первые 999,999 (без заголовка) строк:

read_csv(..., nrows=999999)

Если вы хотите читать строки только 1 000 000... 1,999,999

read_csv(..., skiprows=1000000, nrows=999999)

nrows: int, default None Количество строк файла для чтения. Полезно для чтение кусков больших файлов *

skiprows: список или целое число Номера строк для пропуска (0-индексированные) или количества строк для пропуска (int) в начале файла

и для больших файлов вы, вероятно, также захотите использовать chunksize:

chunksize: int, по умолчанию Нет Возвращает объект TextFileReader для итерации

pandas.io.parsers.read_csv документация