【发布时间】:2018-12-09 03:31:20
【问题描述】:
我正在处理一个大型 pandas 数据框,其中有几列非常像这样:
A B C D
John Tom 0 1
Homer Bart 2 3
Tom Maggie 1 4
Lisa John 5 0
Homer Bart 2 3
Lisa John 5 0
Homer Bart 2 3
Homer Bart 2 3
Tom Maggie 1 4
如何为每个重复的行分配一个唯一的 ID?例如:
A B C D new_id
John Tom 0 1.2 1
Homer Bart 2 3.0 2
Tom Maggie 1 4.2 3
Lisa John 5 0 4
Homer Bart 2 3 5
Lisa John 5 0 4
Homer Bart 2 3.0 2
Homer Bart 2 3.0 2
Tom Maggie 1 4.1 6
我知道我可以使用duplicate 来检测重复的行,但是我无法想象正在重复这些行。我试图:
df.assign(id=(df.columns).astype('category').cat.codes)
df
但是,不起作用。如何获取用于检测重复行组的唯一 ID?
【问题讨论】:
-
在你的例子中,我相信
new_id应该是1、2、3、4、2等等?
标签: python python-3.x pandas