【问题标题】:Fill gaps in DataFrame MultiIndex level 1, differently for each level 0填充 DataFrame MultiIndex 级别 1 中的空白,每个级别 0 不同
【发布时间】:2018-08-14 20:22:48
【问题描述】:

我有一个 MultiIndex 数据帧,其 1 级的日期值不准确,如下所示:

np.random.seed(456)
j = [(a, b) for a in ['A','B','C'] for b in random.sample(pd.date_range('2018-01-01', periods=100, freq='D').tolist(), 5)]
j.sort()
i = pd.MultiIndex.from_tuples(j, names=['Name','Date'])
df = pd.DataFrame(np.random.random_integers(0,100,15), i, columns=['Vals'])
# print(df):
                 Vals
Name Date            
A    2018-01-01    27
     2018-01-08    43
     2018-03-26    89
     2018-03-29    42
     2018-04-01    28
B    2018-01-02    79
     2018-01-26    60
     2018-02-18    45
     2018-03-11    37
     2018-03-23    92
C    2018-03-17    39
     2018-03-20    81
     2018-03-21    11
     2018-03-27    77
     2018-04-08    69

对于每个级别 0 的值,我想用最小和最大日期值之间的每个日历日期填写索引级别 1该级别 0。 (This Q&A 解决了使用为所有级别 0 值设置的相同值填充级别 1 的情况。)

例如,对于subset = df.loc['A'],我想插入行以便subset.index.values == pd.date_range(subset.index.values.min(), subset.index.values.max()).values。即,生成的 DataFrame 如下所示:

                 Vals
Name Date            
A    2018-01-01    27
     2018-01-02   NaN
     2018-01-03   NaN
     2018-01-04   NaN
     2018-01-05   NaN
     2018-01-06   NaN
     2018-01-07   NaN
     2018-01-08    43
     2018-01-09   NaN
...

有没有一种熊猫方法可以做到这一点?

(我能想到的最好的办法是低效地迭代 append 新 DataFrames 为每个级别 0 值。或者类似地迭代构造索引值列表,然后 pandas.concat 它们与原始 DataFrame。)

【问题讨论】:

    标签: python pandas dataframe multi-index


    【解决方案1】:

    你可以使用asfreq

    df.groupby(level=0).apply(lambda x: x.reset_index(level=0, drop=True).asfreq("D"))
    

    【讨论】:

    • 这很聪明!
    • 该死的……太棒了!这就是为什么每当我使用多行 python 来做某事时我都会担心;)
    • @feetwet 有时多行有利于阅读和速度:-)
    猜你喜欢
    • 2018-10-15
    • 2020-08-19
    • 2014-05-24
    • 2019-02-16
    • 2019-05-06
    • 1970-01-01
    • 2018-06-24
    • 1970-01-01
    相关资源
    最近更新 更多