Как читать подмножество большого набора данных в R?

У меня есть набор данных, содержащий около 2 миллионов строк, поэтому, не читая весь набор данных, я хочу прочитать подмножество набора данных. В моем наборе данных содержится столбец даты, поэтому я просто хочу прочитать набор данных между диапазоном дат без чтения всего набора данных, поскольку это потребует много времени и памяти. так как это сделать, может ли кто-нибудь направить меня на это?

Ответ 1

Используйте параметр skip= в read.table

read.table("file.txt",skip= ,nrows= )

Оба skip= и nrows= принимают номера индикаторов строк, поэтому просто добавьте их после =.

nrows= определяет, насколько глубоко вы изменяетесь при импорте файла.

Я предлагаю читать https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.table.html, если вы этого еще не сделали.

Также см. один из моих вопросов:

R - Чтение строк из TXT файла после определенной строки

Он, несколько, касается одного и того же предмета.

Другим возможным способом может быть использование grep() в skip=

read.table(...,skip=grep("2005-12-31", readLines("File.txt")),nrows=365)

Что делает эта строка, она пропускает, пока не найдет строку, изображенную в grep(), и после этого прочитает строки. nrow= остановит чтение после того, как прочитает 365 строк (таким образом, вы прочитали один год дат, если одна строка равна одной дате).

Это кажется довольно сложным, но это единственный способ, которым я знаю, как это решить.