Есть способ сдвинуть столбец dataframe в зависимости от условия на двух других столбцах? что-то вроде:
df["cumulated_closed_value"] = df.groupby("user").['close_cumsum'].shiftWhile(df['close_time']>df['open_time])
Я выяснил, как это сделать, но это неэффективно:
1) Загрузите данные и создайте столбец для переключения
df=pd.read_csv('data.csv')
df.sort_values(['user','close_time'],inplace=True)
df['close_cumsum']=df.groupby('user')['value'].cumsum()
df.sort_values(['user','open_time'],inplace=True)
print(df)
выход:
user open_time close_time value close_cumsum
0 1 2017-01-01 2017-03-01 5 18
1 1 2017-01-02 2017-02-01 6 6
2 1 2017-02-03 2017-02-05 7 13
3 1 2017-02-07 2017-04-01 3 21
4 1 2017-09-07 2017-09-11 1 22
5 2 2018-01-01 2018-02-01 15 15
6 2 2018-03-01 2018-04-01 3 18
2) сдвиньте столбец с самосоединением и некоторыми фильтрами
df2=pd.merge(df[['user','open_time']],df[['user','close_time','close_cumsum']], on='user')
(это неэффективная память) df2=pd.merge(df[['user','open_time']],df[['user','close_time','close_cumsum']], on='user')
фильтр для 'close_time' <'open_time'. Затем получите строку с max close_time
df2=df2[df2['close_time']<df2['open_time']]
idx = df2.groupby(['user','open_time'])['close_time'].transform(max) == df2['close_time']
df2=df2[idx]
3) сливаются с исходным набором данных:
df3=pd.merge(df[['user','open_time','close_time','value']],df2[['user','open_time','close_cumsum']],how='left')
print(df3)
выход:
user open_time close_time value close_cumsum
0 1 2017-01-01 2017-03-01 5 NaN
1 1 2017-01-02 2017-02-01 6 NaN
2 1 2017-02-03 2017-02-05 7 6.0
3 1 2017-02-07 2017-04-01 3 13.0
4 1 2017-09-07 2017-09-11 1 21.0
5 2 2018-01-01 2018-02-01 15 NaN
6 2 2018-03-01 2018-04-01 3 15.0
Есть ли еще способ pandas получить тот же результат?
Изменить: я добавил одну строку данных, чтобы сделать это более понятным. Моя цель - получить сумму всех транзакций, закрытых до открытия новой транзакции