Недавно я встретил библиотеку pandas для python, которая согласно этот тест выполняет очень быстрые слияния в памяти. Это даже быстрее, чем data.table пакет в R (мой язык выбора для анализа).
Почему pandas
намного быстрее, чем data.table
? Это из-за присущего ему преимущества скорости, на котором python имеет более R, или есть некоторые компромиссы, о которых я не знаю? Есть ли способ выполнить внутреннее и внешнее соединения в data.table
, не прибегая к merge(X, Y, all=FALSE)
и merge(X, Y, all=TRUE)
?
Здесь R-код и код Python для сравнения различных пакетов.