【发布时间】:2017-07-10 08:36:23
【问题描述】:
例如,我需要从 R 中的句子中获取两个单词的组合 ABC 是一个字符串,值为“你好朋友你好吗”
所需的O/p是向量的形式,其中每个元素包含两个单词输出,如
V[1] - "hello friend"
V[2] - "friend how"
V[3] - "how are"
V[4] - "are you"
我可以使用此代码获取此信息。请建议是否有更好的方法来做到这一点
Z = 1
for (l in 1:(length(ABC) - 1)) {
E[z] <- paste(ABC[l], ABC[l+1])
z <- z + 1
}
【问题讨论】:
-
你能试试
NGramTokenizer包中的NGramTokenizer函数吗?即运行命令NGramTokenizer(x, Weka_control(min = 2, max = 2))。 -
谢谢。 NGramTokenizer 工作正常