【问题标题】:How to group Pandas data frame by column with regex match如何使用正则表达式匹配按列对 Pandas 数据帧进行分组
【发布时间】:2017-08-19 14:01:37
【问题描述】:

我有以下数据框:

import pandas as pd
df = pd.DataFrame({'id':['a','b','c','d','e'],
                   'XX_111_S5_R12_001_Mobile_05':[-14,-90,-90,-96,-91],
                   'YY_222_S00_R12_001_1-999_13':[-103,0,-110,-114,-114],
                   'ZZ_111_S00_R12_001_1-999_13':[1,2.3,3,5,6],
})

df.set_index('id',inplace=True)
df

看起来像这样:

Out[6]:
    XX_111_S5_R12_001_Mobile_05  YY_222_S00_R12_001_1-999_13  ZZ_111_S00_R12_001_1-999_13
id
a                           -14                         -103                          1.0
b                           -90                            0                          2.3
c                           -90                         -110                          3.0
d                           -96                         -114                          5.0
e                           -91                         -114                          6.0

我想做的是根据以下正则表达式对列进行分组:

\w+_\w+_\w+_\d+_([\w\d-]+)_\d+

所以最后它被Mobile1-999分组。

有什么办法。我试过了,但未能将它们分组:

import re
grouped = df.groupby(lambda x: re.search("\w+_\w+_\w+_\d+_([\w\d-]+)_\d+", x).group(), axis=1)
for name, group in grouped:
    print name
    print group

哪些打印:

XX_111_S5_R12_001_Mobile_05
YY_222_S00_R12_001_1-999_13
ZZ_111_S00_R12_001_1-999_13

我们想要的是name 打印到:

Mobile
1-999
1-999

group打印对应的数据框。

【问题讨论】:

  • 您能否提供一些有关您要实现的目标的更多详细信息?看起来您正在尝试在 groupby 中输出 3 个组,而原始数据框仍然只有 3 列。此外,根据 groupby 的定义,组名/标签(您称为 name)是唯一的,因此您描述的所需输出是不可能的;最接近的方法是创建一行标签(即移动和 1-999)并在您的组中使用这些标签,但我不确定这是否与您尝试做的事情相关。

标签: python regex pandas


【解决方案1】:

您可以在列上使用.str.extract,以便将extract substrings 用于您的groupby

# Performing the groupby.
pat = '\w+_\w+_\w+_\d+_([\w\d-]+)_\d+'
grouped = df.groupby(df.columns.str.extract(pat, expand=False), axis=1)

# Showing group information.
for name, group in grouped:
    print name
    print group, '\n'

返回预期组:

1-999
    YY_222_S00_R12_001_1-999_13  ZZ_111_S00_R12_001_1-999_13
id                                                          
a                          -103                          1.0
b                             0                          2.3
c                          -110                          3.0
d                          -114                          5.0
e                          -114                          6.0 

Mobile
    XX_111_S5_R12_001_Mobile_05
id                             
a                           -14
b                           -90
c                           -90
d                           -96
e                           -91 

【讨论】:

    【解决方案2】:

    分组后,将新数据框的索引设置为[re.findall(r'\w+_\w+_\w+_\d+_([\w\d-]+)_\d+', col)[0] for col in df.columns](即['Mobile', '1-999', '1-999'])。

    【讨论】:

    • 看起来我忽略了你的问题,基于错误的描述。您遇到的问题与分组无关。它与索引有关。
    【解决方案3】:

    您的正则表达式有一些问题,\w 匹配包含下划线的单词字符,这似乎不是您想要的,如果您只想匹配字母和数字,使用 A-Za-z0-9- 会更好:

    df.groupby(df.columns.str.extract("([A-Za-z0-9-]+)_\d+$"), axis=1).sum()
    

    【讨论】:

      猜你喜欢
      • 2022-01-24
      • 1970-01-01
      • 2018-04-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-01-22
      相关资源
      最近更新 更多