【发布时间】:2015-05-15 05:32:08
【问题描述】:
给定以下输入:
In [18]: input
Out[18]:
1 2 3 4
0 1 5 9 1
1 2 6 10 2
2 1 5 9 1
3 1 5 9 1
In [26]: df = input.drop_duplicates()
Out[26]:
1 2 3 4
0 1 5 9 1
1 2 6 10 2
我将如何获取一个数组,该数组具有来自子集的行的索引,例如:
resultant = [0, 1, 0, 0]
即这里的'1'基本上是说明(输入中的行[1])==(df中的行[1])。由于唯一行的数量将少于“结果”中的多个值,这将等同于 df 中的相似值。即 (row[k] in input == row[k+N] in input) == (row[1] in df) 可能是一种情况。
我正在寻找来自 input:df 的实际行号映射。
虽然这个例子在我的例子中是微不足道的,但我有大量删除的映射可能映射到一个索引作为例子。
我为什么要这个?我正在训练一个目标序列不唯一的自动编码器类型系统。
【问题讨论】:
-
我很困惑。你的意思是重复行的索引被删除了吗?
-
删除的数据框中的索引,其中行等于输入中的行。即:df中的第0行等于输入中的第0行。
-
为了清楚起见更新了问题
-
在原始问题中添加了更多信息。这有帮助吗?我不相信这会起作用,因为可能有多个重复
-
哦,我明白了。 0/1 让我失望了。我以为你的意思是布尔值,但它只是索引号......