【发布时间】:2019-04-09 23:50:52
【问题描述】:
我们正在研究如下图所示的 pandas 数据框。这里时间列的增量为 15 分钟,并且缺少一些时间条目。我们想用相应的日期填充缺失的时间条目,并用零填充所有相应的字段。这就是数据框的样子。
df=
date.y timeslot_1 ProductId PlantId region UserId Gender AgeGroup Weights
6/07/2018 1:15:00 1002 8577 6 Mab 2 S 1432.6
6/07/2018 1:15:00 1002 8577 6 Mac 2 M 1629.3
6/07/2018 1:15:00 1001 8647 6 Maa 2 P 5299.6
6/07/2018 1:45:00 1001 7636 C Mab 1 T 1626.4
6/07/2018 1:45:00 1002 8577 6 Maa 1 T 1476.1
6/07/2018 1:45:00 1002 8577 6 Mab 2 S 1432.6
6/07/2018 1:45:00 1002 8577 6 Mac 2 M 1629.3
6/07/2018 1:45:00 1001 8647 6 Maa 2 P 5299.6
6/07/2018 2:00:00 1001 8647 6 Maa 2 P 4731.6
6/07/2018 2:15:00 1001 7636 C Mab 1 T 1638.6
6/07/2018 2:15:00 1002 8808 C Maa 2 M 2465.3
6/07/2018 2:30:00 1002 7491 4 Mab 1 N 5419.8
6/07/2018 2:45:00 1002 7491 4 Mab 1 N 5419.8
6/07/2018 3:15:00 1001 8362 6 Maa 2 X 2227.6
6/07/2018 3:15:00 1002 8714 C Maa 2 P 1820.6
6/07/2018 3:15:00 1001 8668 5 Mab 2 S 2048.4
6/07/2018 4:00:00 1002 8714 C Maa 2 P 1820.6
我们考虑创建另一个基础文件,其中包含所有 15 分钟增量时间和相应的日期,然后将基础文件与原始数据框连接起来。但是,有些似乎不起作用。加入只是将基础文件中的所有点放在每个日期的末尾。这就是连接的数据框的样子。
date.y timeslot_1 ProductId PlantId region UserId Gender AgeGroup Weights
6/7/2018 1:15:00 1002 8577 6 Mab 2 S 1432.6
6/7/2018 1:15:00 1002 8577 6 Mac 2 M 1629.3
6/7/2018 1:15:00 1001 8647 6 Maa 2 P 5299.6
6/7/2018 1:45:00 1001 7636 C Mab 1 T 1626.4
6/7/2018 1:45:00 1002 8577 6 Maa 1 T 1476.1
6/7/2018 1:45:00 1002 8577 6 Mab 2 S 1432.6
6/7/2018 1:45:00 1002 8577 6 Mac 2 M 1629.3
6/7/2018 1:45:00 1001 8647 6 Maa 2 P 5299.6
6/7/2018 2:00:00 1001 8647 6 Maa 2 P 4731.6
6/7/2018 2:15:00 1001 7636 C Mab 1 T 1638.6
6/7/2018 2:15:00 1002 8808 C Maa 2 M 2465.3
6/7/2018 2:30:00 1002 7491 4 Mab 1 N 5419.8
6/7/2018 2:45:00 1002 7491 4 Mab 1 N 5419.8
6/7/2018 3:15:00 1001 8362 6 Maa 2 X 2227.6
6/7/2018 3:15:00 1002 8714 C Maa 2 P 1820.6
6/7/2018 3:15:00 1001 8668 5 Mab 2 S 2048.4
6/7/2018 4:00:00 1002 8714 C Maa 2 P 1820.6
6/7/2018 1:15:00
6/7/2018 1:30:00
6/7/2018 1:45:00
6/7/2018 2:00:00
6/7/2018 2:15:00
6/7/2018 2:30:00
6/7/2018 2:45:00
6/7/2018 3:00:00
6/7/2018 3:15:00
6/7/2018 3:30:00
6/7/2018 3:45:00
下面是代码
date1='06/03/2018'
date2='06/10/2018'
d=pd.date_range(start=date1+ ' 02:00:00', end=date2+' 02:00:00', freq='15min')
columns=['date']
all_spots=pd.DataFrame(columns=columns)
all_spots=all_spots.assign(date=d)
all_spots=all_spots.astype(str)
all_spots = pd.DataFrame(all_spots.date.str.split(' ',1).tolist(),columns = ['date.y','timeslot_1'])
d=pd.merge(df,all_spots,how='outer', on=['date.y','timeslot_1'])
这就是结果的样子。
date.y timeslot_1 ProductId PlantId region UserId Gender AgeGroup Weights
6/07/2018 1:15:00 1002 8577 6 Mab 2 S 1432.6
6/07/2018 1:15:00 1002 8577 6 Mac 2 M 1629.3
6/07/2018 1:15:00 1001 8647 6 Maa 2 P 5299.6
6/07/2018 1:30:00 0 0 0 0 0 0 0
6/07/2018 1:45:00 1001 7636 C Mab 1 T 1626.4
6/07/2018 1:45:00 1002 8577 6 Maa 1 T 1476.1
6/07/2018 1:45:00 1002 8577 6 Mab 2 S 1432.6
6/07/2018 1:45:00 1002 8577 6 Mac 2 M 1629.3
6/07/2018 1:45:00 1001 8647 6 Maa 2 P 5299.6
6/07/2018 2:00:00 1001 8647 6 Maa 2 P 4731.6
6/07/2018 2:15:00 1001 7636 C Mab 1 T 1638.6
6/07/2018 2:15:00 1002 8808 C Maa 2 M 2465.3
6/07/2018 2:30:00 1002 7491 4 Mab 1 N 5419.8
6/07/2018 2:45:00 1002 7491 4 Mab 1 N 5419.8
6/07/2018 3:00:00 0 0 0 0 0 0 0
6/07/2018 3:15:00 1001 8362 6 Maa 2 X 2227.6
6/07/2018 3:15:00 1002 8714 C Maa 2 P 1820.6
6/07/2018 3:15:00 1001 8668 5 Mab 2 S 2048.4
6/07/2018 3:30:00 0 0 0 0 0 0 0
6/07/2018 3:45:00 0 0 0 0 0 0 0
6/07/2018 4:00:00 1002 8714 C Maa 2 P 1820.6
附:需要注意的一点是它只是一个数据的 sn-p。我们有一个月的数据。所以我们需要注意日期和时间是 24 小时格式。
我们希望有人能帮忙解决这个问题。
提前非常感谢!!
【问题讨论】:
标签: python pandas date datetime missing-data