【发布时间】:2020-12-15 11:35:21
【问题描述】:
我正在使用两个数据集(dataset1 和 dataset2),它们都包含大量客户电子邮件。 我想匹配确定哪些电子邮件在每个数据集中是唯一的,哪些是“重叠的”(在两个数据集中都可以观察到)。我想最终得到 3 个数据集:
- 具有数据集 1 独有的电子邮件的邮件
- dataset2 独有的电子邮件
- 在数据集 1 和数据集 2 中都观察到的电子邮件(重叠)
这是一个可重复性的示例:
dataset1 <- data.frame(email = c("A", "B", "C", "D", "E" ))
dataset2 <- data.frame(email = c("X", "Y", "Z", "D", "E" ))
结果应该是:
- result1 由电子邮件“A”、“B”、“C”组成
- 结果 2 由电子邮件“X”、“Y”、“Z”组成
- result3 由电子邮件“D”、“E”组成
谢谢!
【问题讨论】: