【发布时间】:2022-01-22 00:44:43
【问题描述】:
例如,我有一个这样的熊猫数据框:
忽略“名称”列,我想要一个看起来像这样的数据框,用它们的“ID”标记同一组的哈希
这里,我们遍历每一行,遇到“8a43”,给它分配ID 1,找到相同hash值的地方,我们给ID分配1。然后我们继续下一行,遇到79e2和 b183。然后我们遍历所有行,在任何找到这些值的地方,我们将它们的 ID 存储为 2。现在当我们到达“abc7”时就会出现问题。它将被分配 ID=5,因为它之前在“abc5”中遇到过。但我也希望在当前行之后的行中,无论我在哪里找到“26ea”,都将 ID=5 分配给那些。
我希望这一切都有意义。如果没有,请随时通过 cmets 或消息与我联系。我会尽快清除的。
【问题讨论】:
-
不应该 abc4 有 ID 2 吗?
-
@Julkar9 是的,是的。编辑帖子以包含正确的图像
-
还有
5应该是4inID -
两个之前看到的hash值(对应不同的ID)能否一起出现,比如[1cee(5), b183(2)]?
标签: python pandas hashmap logic pandas-explode