Я знаю, что здесь есть много вопросов о способах преобразования списка data.frames в один файл data.frame с использованием do.call или ldply, но эти вопросы касаются понимания внутренней работы обоих методов и попыток выяснить, почему я не могу заставить работать для объединения списка почти 1 миллион df одной и той же структуры, одинаковых имен полей и т.д. в один файл data.frame. Каждый data.frame имеет одну строку и 21 столбец.
Данные начинались как JSON файл, который я преобразовал в списки, используя fromJSON, а затем запускал еще один лап, чтобы извлечь часть списка и преобразовать в data.frame, и в итоге появился список data.frames.
Я пробовал:
df <- do.call("rbind", list)
df <- ldply(list)
но мне пришлось убить процесс после того, как он запустил до 3 часов и ничего не получил.
Есть ли более эффективный способ сделать это? Как я могу устранить то, что происходит, и почему это так долго?
FYI. Я использую RStudio-сервер на 72-Гбайт четырехъядерном сервере с RHEL, поэтому я не думаю, что проблема памяти. sessionInfo ниже:
> sessionInfo()
R version 2.14.1 (2011-12-22)
Platform: x86_64-redhat-linux-gnu (64-bit)
locale:
[1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C
[3] LC_TIME=en_US.UTF-8 LC_COLLATE=en_US.UTF-8
[5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8
[7] LC_PAPER=C LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] multicore_0.1-7 plyr_1.7.1 rjson_0.2.6
loaded via a namespace (and not attached):
[1] tools_2.14.1
>