【发布时间】:2019-08-15 10:59:22
【问题描述】:
我目前正在处理两组数据,这些数据提供 2013 年 2 月 2 日至 2018 年 9 月期间相同金融产品的月度价格。这两个数据集没有每个产品的每个月的价格,数据集 1 的数据比数据集 2 更准确。
我想找到一种方法来合并这两个数据集,以获得具有最准确数据的结果数据集(来自 Dataset1),并使用来自 Dataset 2 的可用数据完成此数据。
此外,我想知道两个数据集之间重叠的数据百分比。
假设这些是我的两个数据集的样本:
Dataset 1
201602 201603 201604
1 103.5 102.4 101.6
2 0 0 104.2
3 101.6 101.7 102
Dataset 2
201602 201603 201604
1 0 103.1 102.8
2 102.3 103.5 104.5
3 0 101.5 102.3
我想获得:
Dataset 1
`201602` `201603` `201604`
1 103.5 102.4 101.6
2 102.3 103.5 104.2
3 101.6 101.7 102
并且表明我的重叠 = 5/9 = 55.6%
我有超过 1000 种金融产品,所以我正在寻找最简单的代码。
提前感谢您的帮助!
【问题讨论】:
-
“重叠”是什么意思?它是如何计算的?
-
您的两个数据集是否具有完全相同的行数和列数,对应相同的月份和产品?
0的值是否表示缺失? -
@MKBakker :我的数据集具有完全相同的行数和列数,对应于相同的月份和产品,是的。而
0的值确实表示缺失 -
@RonakShah 的“重叠”是指两个数据集中存在的数据的百分比,考虑到
0表示没有数据。例如,对于列201603,第 1 行和第 3 行的数据同时存在于两个数据集中,因此它们重叠。 -
@RonakShah 但是,“201602”列没有重叠。数据集 1 有第 1 行和第 3 行的数据,而数据集 2 没有,数据集 2 有第 2 行的数据,而数据集 1 没有
标签: r