Недавно я встретил библиотеку pandas для python, которая согласно этот тест выполняет очень быстрые слияния в памяти. Это даже быстрее, чем data.table пакет в R (мой язык выбора для анализа).
Почему pandas намного быстрее, чем data.table? Это из-за присущего ему преимущества скорости, на котором python имеет более R, или есть некоторые компромиссы, о которых я не знаю? Есть ли способ выполнить внутреннее и внешнее соединения в data.table, не прибегая к merge(X, Y, all=FALSE) и merge(X, Y, all=TRUE)?

Здесь R-код и код Python для сравнения различных пакетов.
