【发布时间】:2016-07-21 10:17:08
【问题描述】:
我有来自不同来源的相同数据,均不完整,但组合起来可能不那么不完整..
我有 2 个文件;
文件 #1 有; ID、邮政编码、YoB、性别
文件 #2 具有:电子邮件、ID、邮政编码、Yob、性别
两个文件中的 ID 相同,但 #1 有一些 ID,而 #2 没有,反之亦然。
电子邮件连接到 ID。 ID 与邮政编码、YoB 和性别相关联。在这两个文件中都缺少一些信息。
例如文件 #1 和 #2 都有 ID 1234,只有在 #1 中它只有一个邮政编码,YoB 但没有 Gender。 #2 有邮政编码和性别,但没有 YoB。
我想将所有信息放在一个文件中;
电子邮件、ID、YoB、邮政编码、性别
我尝试按字母顺序对两个 ID 进行排序,然后将它们放在一起并搜索重复项,但是因为 #1 有一些 ID,而 #2 没有,所以我无法将它们组合起来......
解决此问题的最佳方法是什么?
顺便说一下,它有大约 12000 个来自 #1 的 ID 和 9500 个来自 #2 的 ID
【问题讨论】: