【问题标题】:Get the difference betwen two dataframe with different time series获取具有不同时间序列的两个数据帧之间的差异
【发布时间】:2019-04-11 08:22:04
【问题描述】:

我有 2 个数据帧(df1 和 df2),格式如下。 df1 是模拟结果。因此,df1 的时间步长更密集(每个月的开始)。 df2 是实际观察到的数据。因此,可用数据较少(无论何时收集)。 df1 和 df2 都具有不同的时间序列(时间步长),并针对每个位置进行编译。

样本数据

df1 = pd.DataFrame({'Date': ['2018-02-01', '2018-03-01', '2018-04-01', '2018-05-01', '2018-06-01', '2018-07-01', '2018-02-01', '2018-03-01', '2018-04-01', '2018-05-01', '2018-06-01', '2018-07-01', '2018-02-01', '2018-03-01', '2018-04-01', '2018-05-01', '2018-06-01', '2018-07-01'], 'Location': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3], 'Sim': [3253, 3078, 3222, 3940, 3665, 3856, 3775, 3658, 3056, 3993, 3240, 3054, 3162, 3193, 3627, 3740, 3042, 3569]})
df2 = pd.DataFrame({'Date': ['2018-02-10', '2018-03-18', '2018-04-15', '2018-05-11', '2018-06-12', '2018-07-11', '2018-02-22', '2018-03-31', '2018-04-02', '2018-05-06', '2018-06-30', '2018-07-21', '2018-02-03', '2018-03-04', '2018-04-01', '2018-05-03', '2018-06-05', '2018-07-25'], 'Location': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3], 'Observed': [3668, 3102, 3128, 3485, 3926, 3344, 3134, 3258, 3833, 3883, 3122, 3417, 3551, 3971, 3294, 3207, 3803, 3250]})

df1:

    Date    Location    Sim
0   2018-02-01  1   3253
1   2018-03-01  1   3078
2   2018-04-01  1   3222
3   2018-05-01  1   3940
4   2018-06-01  1   3665
5   2018-07-01  1   3856
6   2018-02-01  2   3775
7   2018-03-01  2   3658
8   2018-04-01  2   3056
9   2018-05-01  2   3993
10  2018-06-01  2   3240
11  2018-07-01  2   3054
12  2018-02-01  3   3162
13  2018-03-01  3   3193
14  2018-04-01  3   3627
15  2018-05-01  3   3740
16  2018-06-01  3   3042
17  2018-07-01  3   3569

df2:

    Date    Location    Observed
0   2018-02-10  1   3668
1   2018-03-18  1   3102
2   2018-04-15  1   3128
3   2018-05-11  1   3485
4   2018-06-12  1   3926
5   2018-07-11  1   3344
6   2018-02-22  2   3134
7   2018-03-31  2   3258
8   2018-04-02  2   3833
9   2018-05-06  2   3883
10  2018-06-30  2   3122
11  2018-07-21  2   3417
12  2018-02-03  3   3551
13  2018-03-04  3   3971
14  2018-04-01  3   3294
15  2018-05-03  3   3207
16  2018-06-05  3   3803
17  2018-07-25  3   3250

我正在寻找上面的图片/情节的最终结果。对于每个“位置”,将“模拟”数据中的日期重新采样为每日频率,然后线性内插或外推(如有必要)。仅在“已观察”数据可用的日期计算 Delta(Delta=Observed - Sim)。再次为每个“位置”绘制一个类似于上面附加的图。

我的想法是使用 df.groupby 方法对 df1 中的 Sim 列的每个“位置”、 series.resample 进行分组。线性插值 df1 每日频率。计算观察日期的 Delta。然后把它们画出来。

【问题讨论】:

  • 你能给我们两个数据框的公式吗?这样我们就可以直接复制和粘贴,即 df= pd.DataFrame({'Date':[],'Location':[],'Sim':[]})
  • @min2bro 我已经添加了示例数据
  • 有谁能帮助我吗?

标签: python pandas group-by


【解决方案1】:

我建议使用 Series 构建单个数据框,然后对其进行插值

Observed= {0: 3668, 1: 3102, 2: 3128, 3: 3485, 4: 3926, 5: 3344, 6: 3134, 7: 3258, 8: 3833, 9: 3883, 10: 3122, 11: 3417, 12: 3551, 13: 3971, 14: 3294, 15: 3207, 16: 3803, 17: 3250}

y1 = pd.Series(Observed, index=Observed)

df = pd.DataFrame({'Date': {0: '2018-02-01', 1: '2018-03-01', 2: '2018-04-01', 3: '2018-05-01', 4: '2018-06-01', 5: '2018-07-01', 6: '2018-02-01', 7: '2018-03-01', 8: '2018-04-01', 9: '2018-05-01', 10: '2018-06-01', 11: '2018-07-01', 12: '2018-02-01', 13: '2018-03-01', 14: '2018-04-01', 15: '2018-05-01', 16: '2018-06-01', 17: '2018-07-01'}, 'Location': {0: 1, 1: 1, 2: 1, 3: 1, 4: 1, 5: 1, 6: 2, 7: 2, 8: 2, 9: 2, 10: 2, 11: 2, 12: 3, 13: 3, 14: 3, 15: 3, 16: 3, 17: 3}, 
                   'Sim': {0: 3253, 1: 3078, 2: 3222, 3: 3940, 4: 3665, 5: 3856, 6: 3775, 7: 3658, 8: 3056, 9: 3993, 10: 3240, 11: 3054, 12: 3162, 13: 3193, 14: 3627, 15: 3740, 16: 3042, 17: 3569},
                   'Observed':Observed})


df.interpolate('index').reindex(Observed)

【讨论】:

    【解决方案2】:

    对于问题的第一部分,您可以连接 2 个数据帧,然后根据第一个时间序列进行插值并过滤结果。

    df1 = pd.DataFrame({'Date': ['2018-02-01', '2018-03-01', '2018-04-01', '2018-05-01', '2018-06-01', '2018-07-01', '2018-02-01', '2018-03-01', '2018-04-01', '2018-05-01', '2018-06-01', '2018-07-01', '2018-02-01', '2018-03-01', '2018-04-01', '2018-05-01', '2018-06-01', '2018-07-01'], 'Location': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3], 'Sim': [3253, 3078, 3222, 3940, 3665, 3856, 3775, 3658, 3056, 3993, 3240, 3054, 3162, 3193, 3627, 3740, 3042, 3569]})
    df2 = pd.DataFrame({'Date': ['2018-02-10', '2018-03-18', '2018-04-15', '2018-05-11', '2018-06-12', '2018-07-11', '2018-02-22', '2018-03-31', '2018-04-02', '2018-05-06', '2018-06-30', '2018-07-21', '2018-02-03', '2018-03-04', '2018-04-01', '2018-05-03', '2018-06-05', '2018-07-25'], 'Location': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3], 'Observed': [3668, 3102, 3128, 3485, 3926, 3344, 3134, 3258, 3833, 3883, 3122, 3417, 3551, 3971, 3294, 3207, 3803, 3250]})
    
    df1['Date'] = pd.to_datetime(df1['Date'])
    df1 = df1.set_index('Date')
    df2['Date'] = pd.to_datetime(df2['Date'])
    df2 = df2.set_index('Date')
    

    然后,groupby,填充缺失值并插值:

    df1_daily = df1.groupby('Location').resample('D').mean()
    df1_daily['Location'] = df1_daily.Location.fillna(method='pad')
    df1_daily['Sim'] = df1_daily.Sim.interpolate(method='linear')
    
    

    准备合并和...合并:

    df2_grouped = df2.set_index(['Location',df2.index])
    merge = df1_daily.merge(right=df2_grouped, left_index=True, right_index=True, how='left')#.sort_index()
    

    最后:

    merge['Delta'] = merge.Observed - merge.Sim
    merge[['Observed', 'Sim', 'Delta']].groupby('Location').plot.line(marker='o', ms=2)
    

    【讨论】:

    • 感谢您的帮助。不幸的是,我没有很好地解释,您的帮助也没有达到我的预期。我沿着这条线思考,我们 df1.groupby 每个“位置”,然后对 Sim 值从每月到每天的日期进行重新采样,并线性插值。之后,对于每个“位置”,仅在我们观察到数据的日期上进行增量计算。最后用 Sim(线)为每个位置创建一个图,在一个图上观察(点)。就在它下面,三角洲的情节
    • 我不明白这个解释。你能给出你期望的输出吗?
    • 您应该将您的需求分解为不同的任务/问题。看起来你在这里问了很多(非常)不同的事情。
    • 用我期待的输出编辑了我的问题。希望这能澄清困惑
    • 看看我所做的改变......看看它是否有效。对于可视化,我只提供了一个基础,你可以使用 matplotlib 来改进;)
    猜你喜欢
    • 1970-01-01
    • 2023-02-23
    • 2019-12-06
    • 2020-02-11
    • 2011-03-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多