【发布时间】:2018-07-06 03:57:44
【问题描述】:
我有以下格式的字符向量
char1 <- c(“Hello”, “was”, “this”, “is”, “that”, “Boston”, “San”, “Francisco”)
char2 <- c(“John”, “was”, “they”, “is”, “Hello”, “Boston”, “San”, “Diego”)
char3 <- c(“John”, “very”, “happens”, “is”, “Hello”, “has”, “San”, “Diego”)
list <- list(char1, char2, char3)
但是,我有大约 500 个,每个长度为 100,000。
如何计算此列表中所有向量的成对 Jaccard 索引(相似性度量)并将其作为数据框输出(NA 用于比较相同的字符向量)?这样做最有效的方法是什么?
谢谢!
【问题讨论】:
-
看
stringdist::stringdist
标签: r