У меня есть набор данных, содержащий около 2 миллионов строк, поэтому, не читая весь набор данных, я хочу прочитать подмножество набора данных. В моем наборе данных содержится столбец даты, поэтому я просто хочу прочитать набор данных между диапазоном дат без чтения всего набора данных, поскольку это потребует много времени и памяти. так как это сделать, может ли кто-нибудь направить меня на это?
Как читать подмножество большого набора данных в R?
Ответ 1
Используйте параметр skip=
в read.table
read.table("file.txt",skip= ,nrows= )
Оба skip=
и nrows=
принимают номера индикаторов строк, поэтому просто добавьте их после =.
nrows=
определяет, насколько глубоко вы изменяетесь при импорте файла.
Я предлагаю читать https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.table.html, если вы этого еще не сделали.
Также см. один из моих вопросов:
R - Чтение строк из TXT файла после определенной строки
Он, несколько, касается одного и того же предмета.
Другим возможным способом может быть использование grep()
в skip=
read.table(...,skip=grep("2005-12-31", readLines("File.txt")),nrows=365)
Что делает эта строка, она пропускает, пока не найдет строку, изображенную в grep()
, и после этого прочитает строки. nrow=
остановит чтение после того, как прочитает 365 строк (таким образом, вы прочитали один год дат, если одна строка равна одной дате).
Это кажется довольно сложным, но это единственный способ, которым я знаю, как это решить.