【发布时间】:2015-06-15 07:33:14
【问题描述】:
想象一下,我在 Ipython 中有一个如下所示的数据框:
df = pd.DataFrame({
'A' : ['1', '1', '1', '1','1', '1', '2', '2', '2', '2', '2', '2'],
'B' : ['00:00', '00:10', '00:20', '00:30','01:10', '01:20','00:00', '00:10', '00:20', '00:30','01:10', '01:20',],
'C' : [2,3,4,2,4,5,6,7,1,5,6,4]}
)
我需要的是右侧结果:它是按 A 分组,然后计算每组每 2(n) 行的平均值。我需要为具有超过 4K 组的超大规模数据集执行此操作。
我尝试使用 Pandas,我认为它可能是一个有用的库。
【问题讨论】:
-
你尝试过什么吗?
-
是的,我试过了:grouped = df.groupby('A') 然后我可以通过这种方式访问每个组:group1 = grouped.get_group('1') 和每 2 个使用 group1[0:2] 对一个组的元素,然后在 for 循环中运行它,这会花费很多时间!
-
你的答案可能在于学习what you can do with a DataFrame(显然不是一个小任务)。
标签: python sql pandas dataframe