【发布时间】:2017-08-19 14:01:37
【问题描述】:
我有以下数据框:
import pandas as pd
df = pd.DataFrame({'id':['a','b','c','d','e'],
'XX_111_S5_R12_001_Mobile_05':[-14,-90,-90,-96,-91],
'YY_222_S00_R12_001_1-999_13':[-103,0,-110,-114,-114],
'ZZ_111_S00_R12_001_1-999_13':[1,2.3,3,5,6],
})
df.set_index('id',inplace=True)
df
看起来像这样:
Out[6]:
XX_111_S5_R12_001_Mobile_05 YY_222_S00_R12_001_1-999_13 ZZ_111_S00_R12_001_1-999_13
id
a -14 -103 1.0
b -90 0 2.3
c -90 -110 3.0
d -96 -114 5.0
e -91 -114 6.0
我想做的是根据以下正则表达式对列进行分组:
\w+_\w+_\w+_\d+_([\w\d-]+)_\d+
所以最后它被Mobile和1-999分组。
有什么办法。我试过了,但未能将它们分组:
import re
grouped = df.groupby(lambda x: re.search("\w+_\w+_\w+_\d+_([\w\d-]+)_\d+", x).group(), axis=1)
for name, group in grouped:
print name
print group
哪些打印:
XX_111_S5_R12_001_Mobile_05
YY_222_S00_R12_001_1-999_13
ZZ_111_S00_R12_001_1-999_13
我们想要的是name 打印到:
Mobile
1-999
1-999
而group打印对应的数据框。
【问题讨论】:
-
您能否提供一些有关您要实现的目标的更多详细信息?看起来您正在尝试在 groupby 中输出 3 个组,而原始数据框仍然只有 3 列。此外,根据 groupby 的定义,组名/标签(您称为
name)是唯一的,因此您描述的所需输出是不可能的;最接近的方法是创建一行标签(即移动和 1-999)并在您的组中使用这些标签,但我不确定这是否与您尝试做的事情相关。