Я хочу добавить новый столбец в мою таблицу данных. Этот столбец должен содержать сумму другого столбца всех строк, удовлетворяющих определенному условию. Пример: таблица data.table выглядит следующим образом:
require(data.table)
DT <- data.table(n=c("a", "a", "a", "a", "a", "a", "b", "b", "b"),
t=c(10, 20, 33, 40, 50, 22, 25, 34, 11),
v=c(20, 15, 16, 17, 11, 12, 20, 22, 10)
)
DT
n t v
1: a 10 20
2: a 20 15
3: a 33 16
4: a 40 17
5: a 50 11
6: a 22 12
7: b 25 20
8: b 34 22
9: b 11 10
Для каждой строки x и каждой строки i, где abs (t [i] - t [x]) <= 10, я хочу рассчитать
foo = sum( v[i] * abs(t[i] - t[x]) )
В SQL я бы решил это, используя самосоединение. В R я смог сделать это, используя цикл for:
for (i in 1:nrow(DT))
DT[i, foo:=DT[n==DT[i]$n & abs(t-DT[i]$t)<=10, sum(v * abs(t-DT[i]$t) )]]
DT
n t v foo
1: a 10 20 150
2: a 20 15 224
3: a 33 16 119
4: a 40 17 222
5: a 50 11 170
6: a 22 12 30
7: b 25 20 198
8: b 34 22 180
9: b 11 10 0
К сожалению, я должен делать это довольно часто, а таблица, с которой я работаю, намного больше. Подход за петлю работает, но слишком медленный. Я играл с пакетом sqldf без реального прорыва. Я хотел бы сделать это, используя некоторую магию data.table и там мне нужна ваша помощь:-). Я думаю, что необходимо какое-то самосоединение при условии, что разница значений t меньше порога.
Последующие действия: У меня есть следующий вопрос: в моем приложении это соединение выполняется снова и снова. Изменение v, но t и n всегда одно и то же. Поэтому я думаю о том, чтобы каким-то образом сохранить, какие строки принадлежат друг другу. Любые идеи, как это сделать умным способом?