Я хотел знать, существует ли ограничение на количество строк, которые могут быть прочитаны с помощью функции fread. Я работаю со столом с 4 миллиардами строк, 4 столбцами, около 40 ГБ. Похоже, что fread будет читать только первые ~ 840 миллионов строк. Он не дает никаких ошибок, но возвращает в запрос R, как будто он прочитал все данные!
Я понимаю, что fread не для "prod use" на данный момент, и хотел узнать, существует ли какой-либо временной интервал для реализации выпуска prod.
Причина, по которой я использую data.table, заключается в том, что для файлов таких размеров она чрезвычайно эффективна при обработке данных по сравнению с загрузкой файла в data.frame и т.д.
В настоящий момент я пытаюсь использовать еще две альтернативы -
1) Использование сканирования и перехода к таблице данных.
data.table(matrix(scan("file.csv",what="integer",sep=","),ncol=4))
Resulted in --
Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
too many items
2) Разбиение файла на несколько отдельных сегментов с ограничением ок. 500 миллионов строк, использующих Unix, и чтение их последовательно... затем циклическое чередование файлов последовательно в fread - немного громоздкое, но похоже, что это единственное работоспособное решение.
Я думаю, что может быть Rcpp-способ сделать это еще быстрее, но я не уверен, как он обычно реализуется.
Спасибо заранее.