【发布时间】:2014-06-09 06:05:37
【问题描述】:
我最近正在尝试进行文本挖掘并查看代码,我了解它试图对文本执行的操作的全貌。
但问题出在代码的某些特定部分,我不知道为什么格式是这样的,以及参数是什么。那么你们对R语言的参考资料或书籍有什么建议,以便我可以检查这个函数的用途以及这个函数中参数的解释?
以下是做文本挖掘的几个问题,如果你们也能帮忙解答,不胜感激:)
1)
cand=c("Romney","Obama")
tdm<-list(name=cand,tdm=s.tdm) #s.tdm is TermDocumentMatrix of a text.
tdm.dm<-t(data.matrix(tdm[["tdm"]]))
我的问题是:为什么在将 termDocumentMatrix 转换为矩阵时,我们需要在第三行中添加两个“[]”
2)
filepath<-"C:/e"
cor.score<-if(length(grep("http|html",filepath))){cor.score<-Corpus(URISource(filepath))}else{score.cor <- generateSpeechDocCorpus(filepath)}
这句话是想查看文件路径是否是URL,我理解使用“grep”来检查文件路径是否有字符串“http”或“html”,但是为什么我们需要在grep之外的句子“length”?我很困惑。 AND 对于代码中的最后一项:
generateSpeechDocCorpus(filepath),
我也可以用
Corpus(DirSource(directory=filepath,encoding="ANSI"))
达到同样的目的。那么generateSpeechDocCorpus和Corpus有什么区别呢?
【问题讨论】:
-
至于
[vs[[,请看这里:stackoverflow.com/q/1169456/903061