【发布时间】:2017-10-26 23:42:14
【问题描述】:
我正在研究一个dataframe,它有一列,每个值都是一个列表,现在我想派生一个新列,它只考虑大小大于 1 的列表,为相应的行分配一个唯一整数ID。如果两个列表中的元素相同但顺序不同,则应为这两个列表分配相同的 id。一个示例dataframe 就像,
document_no_list cluster_id
[1,2,3] 1
[3,2,1] 1
[4,5,6,7] 2
[8] 0
[9,10] 3
[10,9] 3
列cluster_id只考虑第1、2、3、5、6行,每行的大小都大于1,并为其在列中对应的单元格分配一个唯一的整数id,同样是[1,2,3], [3,2,1] 和 [9,10]、[10,9] 应分配相同的 cluster_id。
我在没有考虑重复列表值的情况下问了一个类似的问题,在
pandas how to derived values for a new column base on another column
我想知道如何在 pandas 中做到这一点。
【问题讨论】:
标签: python-3.x pandas dataframe