【发布时间】:2017-05-17 15:28:01
【问题描述】:
我有以下结构的大型数据框,出于此问题的目的对其进行了简化:
A B C D ... J K
date1 time1 1 1 ... 1 1
date2 time2 2 2 ... 2 2
基本上前 3 列都代表字符串数据,即时间和日期。我从 csv 文件中读取的数据框和时间之后的数据在每一列的一天中有多个点。
我想做的是找到一种方法来按日期对所有数据进行分组,并创建每天的平均值,这些值在一天内包含多个数据点。使用 group.by(dates) 可以很好地处理此问题,但是我丢失了日期列中未包含的所有其他数据,因此结果如下:
group.by().mean() 之前:
A B C D ... J K
date1 time1 1 1 ... 1 1
date2 time2 2 2 ... 2 2
date2 time3 1 1 ... 1 1
之后:
A C D ... J K
date1 1 1 1 1
date2 1.5 1.5 ... 1.5 1.5
我的理想输出是将数据保留在时间列和日期列中,同时仍根据天数创建平均值。这将导致以下结果:
理想输出:
A B C D ... J K
date1 time1 1 1 1 1
date2 time2 1.5 1.5 ... 1.5 1.5
【问题讨论】: