【发布时间】:2019-02-21 21:24:51
【问题描述】:
我有两个具有相同列但数据不同的数据框。一个是包含 20,000 个条目的样本数据集,另一个是包含 1,093,564 个条目的控制数据集。我想从控制数据集中提取相同数量的记录,这些记录与示例数据集中的期刊名称相同,但文章(标题)是唯一的。
df1:
journal title
foo abs
bar abc
baz ghj
foo jkl
baz mnj
df2:
journal title
bar nko
foo cvb
foo yui
baz sdf
bar hyt
foo kdm
baz bnd
baz lko
foo mnx
bar sdm
baz rty
两个数据集中的期刊名称相同,但 df1 和 df2 中的标题是唯一的并且不同。我想要这样的结果:
journal title_x title_y
foo abs cvb
bar abc nko
baz ghj sdf
foo jkl kdm
baz mnj bnd
【问题讨论】:
-
你可能需要
merge这两个数据集和how=left,但如果没有一些例子,很难真正帮助你。您能否将您的问题简化为 2 个数据集,其中包含一些非常小的数据子集并将它们展示给我们? -
你觉得
How to merge two dataframes based on a common column but duplicated values?吗?删除了no