【问题标题】:Pandas: join on grouping keys after aggregationPandas:聚合后加入分组键
【发布时间】:2017-07-24 18:40:30
【问题描述】:

我有什么

我有一个这样的熊猫框架:

df1 = pd.DataFrame({
    'date': ['31-05-2017', '31-05-2017', '31-05-2017', '31-05-2017', '01-06-2017', '01-06-2017'],
    'tag':     ['A', 'B', 'B', 'B', 'A', 'A'],
    'metric1': [0, 0, 0, 1, 1, 1],
    'metric2': [0, 1, 1, 0, 1, 0]
})


df2 = pd.DataFrame({
    'date': ['31-05-2017', '31-05-2017', '01-06-2017'],
    'tag':     ['A', 'B', 'A'],
    'metric3': [25, 3, 7,]
})

我想要什么

1) 我想对datetag 的每个组合求和metricmetric_2

2) 计算1metric_2 中的条目百分比

3) 将分组的 df1 与 df2 合并,这样每个datetag都有metric_3

date       | tag | metric1_sum | metric2_sum | metric2_percentage| metric 3
-----------|-----|-------------|-------------|-------------------|---------
31-05-2017 | A   | 0           | 0           | 0                 | 25
31-05-2017 | B   | 1           | 2           | 0.667             | 3
01-06-2017 | A   | 1           | 0           | 0.5               | 7

尝试

(1) 分组和求和工作

>>> g = df1.groupby(['date', 'tag']).agg(sum)
>>> g
                metric1  metric2
date       tag                  
01-06-2017 A          2        1
31-05-2017 A          0        0
           B          1        2

(2) 计算百分比有效,但将其添加为列无效

我使用posted here的方法来计算百分比。

>>> g2 = df1.groupby(['date', 'tag']).agg({'metric2': 'sum'})
>>> g2.groupby(level=0).apply(lambda x: x/float(x.sum()))
                metric2
date       tag         
01-06-2017 A        1.0
31-05-2017 A        0.0
           B        1.0

但是,我现在如何将这个分组的metric2 分配给我的组g 或我的df1 中的列metric2_percentage

(3) 合并失败

与组合并显然不起作用:

>>> pd.merge(g, df2, how='left', on=['date', 'tag'])
KeyError: 'date'

然后如何将df1 减少到每组一行,以便我可以将其与df2 合并?

【问题讨论】:

  • 你能解释一下计算百分比和合并之间的问题吗?这些是单独的问题吗?

标签: python pandas pandas-groupby


【解决方案1】:

gdate, tag 作为索引,而 merge 需要列,您需要在 g 上重置索引:

pd.merge(g.reset_index(), df2, how='left', on=['date', 'tag'])

或指定left_index = True

pd.merge(g, df2, how='left', left_index=True, right_on=['date', 'tag'])

两者都给出结果(列顺序略有不同):

#         date  tag  metric1  metric2   metric3
#0  01-06-2017    A        2        1         7
#1  31-05-2017    A        0        0        25
#2  31-05-2017    B        1        2         3

这是一种替代方法,可以通过更少的连接来完成您的工作:

(df1.groupby(['date', 'tag']).apply(
        lambda g: pd.Series({'metric1_sum': g.metric1.sum(), 
                             'metric2_sum': g.metric2.sum(), 
                             'metric2_percentage': g.metric2.mean()})   
# assumed here you have only 1 and 0 in metric 2 column if not use your own lambda function
    ).reset_index().merge(df2, how='left', on=['date', 'tag']))

#         date  tag  metric1_sum    metric2_percentage  metric2_sum metric3
#0  01-06-2017    A          2.0              0.500000         1.0        7
#1  31-05-2017    A          0.0              0.000000         0.0       25
#2  31-05-2017    B          1.0              0.666667         2.0        3

【讨论】:

  • 太好了,我不知道我可以使用 reset_index() 来扁平化组
【解决方案2】:

使用aggmean 的 1 和 0 将与百分比相同。

cols = ['date', 'tag']
d1 = df1.groupby(cols).agg(
    dict(metric1='sum', metric2=['sum', 'mean'])
)

d1.columns = d1.columns.map('_'.join)

d1.join(df2.set_index(cols))

         date tag  metric1_sum  metric2_sum  metric2_mean  metric3
0  01-06-2017   A            2            1      0.500000        7
1  31-05-2017   A            0            0      0.000000       25
2  31-05-2017   B            1            2      0.666667        3

为了单线而过度设计

from collections import OrderedDict

df1.groupby(['date', 'tag']).agg(
    dict(metric1='sum', metric2=['sum', 'mean'])
).pipe(
    lambda d: pd.DataFrame(OrderedDict({'_'.join(k): v for k, v in d.iteritems()}))
).join(df2.set_index(['date', 'tag'])).reset_index()

         date tag  metric1_sum  metric2_sum  metric2_mean  metric3
0  01-06-2017   A            2            1      0.500000        7
1  31-05-2017   A            0            0      0.000000       25
2  31-05-2017   B            1            2      0.666667        3

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-07-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-06-24
    • 2019-10-12
    相关资源
    最近更新 更多