Я хотел бы изменить DataFrame pandas MultiIndex DataFrame таким образом, чтобы каждая группа индексов включала Даты между указанным диапазоном. Я хотел бы, чтобы каждая группа заполнила отсутствующие даты с 2013-06-11 по 2013-12-31 со значением 0 (или NaN
).
Group A, Group B, Date, Value
loc_a group_a 2013-06-11 22
2013-07-02 35
2013-07-09 14
2013-07-30 9
2013-08-06 4
2013-09-03 40
2013-10-01 18
group_b 2013-07-09 4
2013-08-06 2
2013-09-03 5
group_c 2013-07-09 1
2013-09-03 2
loc_b group_a 2013-10-01 3
Я видел несколько обсуждений reindex
ing, но это для простых (негрупповых) временных рядов данных.
Есть ли простой способ сделать это?
Ниже приводятся некоторые попытки сделать это. Например: после того, как я раскололся на ['A', 'B']
, я снова могу переиндексировать.
df = pd.DataFrame({'A': ['loc_a'] * 12 + ['loc_b'],
'B': ['group_a'] * 7 + ['group_b'] * 3 + ['group_c'] * 2 + ['group_a'],
'Date': ["2013-06-11",
"2013-07-02",
"2013-07-09",
"2013-07-30",
"2013-08-06",
"2013-09-03",
"2013-10-01",
"2013-07-09",
"2013-08-06",
"2013-09-03",
"2013-07-09",
"2013-09-03",
"2013-10-01"],
'Value': [22, 35, 14, 9, 4, 40, 18, 4, 2, 5, 1, 2, 3]})
df.Date = df['Date'].apply(lambda x: pd.to_datetime(x).date())
df = df.set_index(['A', 'B', 'Date'])
dt_start = dt.datetime(2013,6,1)
all_dates = [(dt_start + dt.timedelta(days=x)).date() for x in range(0,60)]
df2 = df.unstack(['A', 'B'])
df3 = df2.reindex(index=all_dates).fillna(0)
df4 = df3.stack(['A', 'B'])
## df4 is about where I want to get, now I'm trying to get it back in the form of df...
df5 = df4.reset_index()
df6 = df5.rename(columns={'level_0' : 'Date'})
df7 = df6.groupby(['A', 'B', 'Date'])['Value'].sum()
Последние несколько строк делают меня немного грустным. Я надеялся, что в df6
я мог бы просто set_index
вернуться к ['A', 'B', 'Date']
, но это не сгруппировало значения, поскольку они сгруппированы в исходном df
DataFrame.
Любые мысли о том, как я могу переиндексировать неупакованный DataFrame, перекомпоновку и иметь DataFrame в том же формате, что и оригинал?