【发布时间】:2011-08-06 07:11:37
【问题描述】:
我需要你心爱的帮助...
我有两个数据集。一个将人名分配给 tradeID,另一个将人员 ID 分配给(相同类型的)tradeID。我想知道,哪个人有哪个ID。
数据:
personID tradeID Name tradeID
123 10 | Bob 7
123 5 | Bob 8
210 1 | Jack 3
210 7 | Jack 11
210 8 | Paul 5
988 11 | Paul 10
988 8 |
问题:
我想找出tradeID的重叠/交集,这样我就知道哪个名字属于哪个personID。
结果 (应该如下所示)
personID Name
123 Paul
210 Bob
988 Jack
困难:
- 重叠有不同数量的元素 (Bob & 210)
- TradeID 与不同的 personID 和姓名有多个连接 (tradeID 8)
- 重叠不必是 100% (Jack & 988)
想法和试验
- 已尝试:数据框比较库 && 重塑库(未提供任何有用的方法)
- 想法:创建 personID 和姓名的向量 && 比较向量(不知道如何制作向量)&& 连接重叠度最高的向量
有没有办法解决这个问题,例如通过数据框比较?
非常感谢您的帮助!!!
【问题讨论】:
标签: r compare dataframe intersection overlap