文本挖掘——如何构建术语-文档矩阵答案

【问题标题】：Text mining- how to build a term-document matrix文本挖掘——如何构建术语-文档矩阵
【发布时间】：2013-12-31 14:25:16
【问题描述】：

我想要做的是加载一个 csv 文件，并转换为一个术语文档矩阵。

这是我的部分代码：

myCorpus<-read.csv('alert-sample-data-4-mining.csv', head=TRUE)
TermDocumentMatrix(myCorpus, control=list(wordLengths=c(1,Inf)))

但是得到一个错误信息说：Error in UseMethod("TermDocumentMatrix", x) : 没有适用于“data.frame”类对象的“TermDocumentMatrix”方法

【问题讨论】：

标签： r tm

【解决方案1】：

这里有几件事——您没有加载 tm 库，也没有创建语料库。尝试这样的事情（假设您的文本数据位于 csv 文件中名为“text”的字段中）：

library(tm)
myCorpus <- read.csv("alert-sample-data-4-mining.csv")
corpus <- Corpus(VectorSource(myCorpus$text))
TermDocumentMatrix(corpus)

【讨论】：

您能否解释一下“假设您的文本数据位于 csv 文件中名为“文本”的字段中”，谢谢
您在 csv 文件中有一些数据。数据的第一行是列标题的名称，随后的所有行都是数据。某些列包含您要用于构建术语文档矩阵的文本。我假设此列的列标题（也就是此列的 csv 文件第一行中的值）称为“文本”。
使用str(myCorpus) 并查看文本列标题的名称。 josilber 说他认为这是为了解释的文本，但很可能不是。
@josilber 我有一个 csv 文件，其标题是：DATE Alert 和 OriginatingAddress。我应该如何基于两列构建术语文档矩阵：DATE 和 Alert。行将具有警报，列将具有日期。该条目表示一天内发生警报的次数。
您是否尝试确定特定警报每天出现的次数？