【发布时间】:2019-05-03 14:47:05
【问题描述】:
这里是场景:
我有一个包含 314 列和超过 300.000 行的大型有序数据集,用于解决机器学习问题。
我想按 X 列(供应商)对数据集进行分组。
- 一列是日期时间类型,有些列本质上是数字,并且 其他是从某些分类列中一次性编码的。
期望的输出:
- 我想按 X 列分组,并按“均值”汇总数字列,按“最后”汇总一些列,按“总和”汇总单热编码的列。都在同一个 agg 方法上。
由于我们谈论的是 314 列数据集,我不能只创建一个包含每一列的 dict。
df_train.groupby('Supplier').agg({<some columns> : 'last', <some columns>: 'sum', <some columns>: 'mean' })
PS:我使用我想应用不同聚合的顺序对列进行排序。
【问题讨论】:
-
也许您可以使用字典推导来为聚合创建字典?