【发布时间】:2021-01-17 00:45:25
【问题描述】:
我有两个数据框如下:
df1:
id, f1, f2,..., f800
0, 5, 5.6,.., 3,7
1, 2.4, 1.6,.., 1,7
2, 3, 2.3,.., 4,4
....
n, 4.7, 9,3,..., 8,2
df2:
id, v1, v2,..., v200
0, 5, 5.6,.., 5,7
1, 2.4, 1.6,.., 6,7
2, 3, 2.3,.., 4,2
....
n, 4.7, 9,3,..., 3,1
df1 包含 800 个特征,而 df2 仅包含 200 个特征。第二个数据帧 (df2) 是第一个数据帧 (df1) 的一部分。现在,我想找到包含 df2 列/变量的列(在 df1 中)的位置。这里列的值应该是相似的,而不是列的名称。考虑到上面的例子,我想要的输出应该是“f1 和 f2”或者来自 df1 的列 [0, 1]。
有什么办法解决这个问题吗?
【问题讨论】:
-
如果我理解正确,列的名称不同但值相同?列是连续的还是随机的?如果连续,您只需从 df1
df1[:,:200]中选择前 200 列 -
列的名称不同(如您在上面的示例中所见),但某些列中的值相似。所以我正在寻找具有相似值的列的索引。
-
你的意思是索引列的标题吗?
-
我在我的问题中添加了更多细节。是的,来自 df1 的列标题(df1 中的 f1 和 f2 类似于 df2 中的 v1 和 v2)或来自 df1 的列号。
标签: python arrays dataframe indexing comparison