【发布时间】:2016-04-15 10:03:20
【问题描述】:
我有 5 个字符串向量,每个向量都有不同数量的元素。但是,这些向量中有很多元素是共同的。
Ex v1<-c("a","x","y","z")
v2 <-c("b","g","m","r","s","x","z")
v3 <-c("a","m","x","y","z","b","r","g")
v4 <-c("d","h","a","g","s","x")
v5 <-c("a","b","m","x","y","z")
我想根据匹配的元素数量计算所有向量之间的匹配百分比。我不想使用元素的顺序来比较它,所以我们必须检查一个向量的每个元素与每个其他向量的每个元素。这里最大匹配在 v1 和 v5 之间。我们可以说 v1 和 v5 有 (8/10)*100=80% 因此我想要所有两个向量的集合,其百分比高于 50%。
【问题讨论】:
-
不应该 v1,v5 为 40%,因为匹配是 a,x,y,z 和 a,b,m,x,y 中的 a,x,y,z (4) ,z (4 + 6 = 10) ?
-
我不太担心用于计算匹配的指标。我使用了 (4*2)/10,因为我认为它可以给我一个合理的值。
-
是的 v2 和 v3 有 93.3% 的匹配。对不起,我错过了。
-
v2 和 v3 提供 (6*2)/15 个匹配项。如果使用相同的公式计算,则等于 80%。
标签: r