У меня есть файл размером 5 ГБ. ( > 10 миллионов строк). Формат каждой строки похож на aaaa bb cccc0123 xxx kkkkkkkkkkkkkk
или aaaaabbbcccc01234xxxkkkkkkkkkkkkkk
, например. Поскольку readLines
имеет слабую производительность при чтении большого файла, я выбираю fread()
, чтобы прочитать это, но произошла ошибка:
library("data.table")
x <- fread("test.DAT")
Error in fread("test.DAT") :
Expecting 5 cols, but line 5 contains text after processing all cols. It is very likely that this is due to one or more fields having embedded sep=' ' and/or (unescaped) '\n' characters within unbalanced unescaped quotes. fread cannot handle such ambiguous cases and those lines may not have been read in as expected. Please read the section on quotes in ?fread.
In addition: Warning message:
In fread("test.DAT") :
Unable to find 5 lines with expected number of columns (+ middle)
Как использовать fread()
как readLines()
без автоматического обнаружения столбцов? Или есть ли другой способ решить эту проблему?