【发布时间】:2016-11-29 23:41:21
【问题描述】:
假设我有以下数据框:
elements = [1,1,1,1,1,2,3,4,5]
df = pd.DataFrame({'elements': elements})
df.set_index(['elements'])
print df
elements
0 1
1 1
2 1
3 1
4 1
5 2
6 3
我有一个列表 [1, 1, 2, 3],我想要包含这 4 个元素的数据框子集,例如:
elements
0 1
1 1
5 2
6 3
我已经能够通过构建一个计算数组中项目出现次数的字典并通过附加初始数据帧的子部分来构建一个新数据帧来处理它。
您知道一些数据框方法来帮助我找到更优雅的解决方案吗?
在@jezrael 评论之后:我必须补充一点,我需要跟踪初始索引(在 df 中)。
我们可以将 df(第一个数据帧)视为资源存储库,我需要跟踪哪些行/索引归属于:
用例是:在 df 中的元素中,给我两个 1、一个 2 和一个 3。我会坚持这样一个事实,即我将第 0 行和第 1 行作为 1,第 4 行作为 2,第 5 行作为 3。
【问题讨论】:
标签: pandas indexing dataframe duplicates subset