使用 R 进行文本挖掘 Reuters-21578答案

【问题标题】：Using R for Text Mining Reuters-21578使用 R 进行文本挖掘 Reuters-21578
【发布时间】：2013-11-25 04:00:55
【问题描述】：

我正在尝试使用众所周知的 Reuters-21578 数据集做一些工作，但在将 sgm 文件加载到我的语料库时遇到了一些问题。

我现在正在使用命令

require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML))

试图将所有文件包含到我的语料库中，但这给了我以下错误：

Error in DirSource(reut21578) : empty directory

知道我哪里可能出错了吗？

【问题讨论】：

看看这个问题 - tm 包中似乎没有包含这些数据，您可能需要在继续之前手动下载。 stackoverflow.com/questions/10377273/…
@Stedy：您提供的链接肯定会对我的其余分析有所帮助，但我已经下载了数据，我正在做的只是似乎没有找到合适的目录。
啊，明白了，好吧，我认为 R 正在寻找 tm 的源代码目录。为什么不通过将文件放在Documents 或桌面来简化事情，只需将其称为file("Documents/reuters-21578")
@Stedy 是正确的，@user1422508 你应该用Corpus(DirSource("full-path-to-dir-with-downloaded-data")... 替换Corpus(DirSource(reut21578)...

标签： r corpus tm reuters

【解决方案1】：

“tm”包仅包含 Reuters21578 数据的样本。如果您想避免下载、加载和准备所有 22 个 Reuters21578 文件，可以使用 package "tm.corpus.Reuters21578"：

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)

【讨论】：

有一条评论声称该 URL 不再起作用。这就是链接的问题，它们往往会中断。因此，不鼓励“仅链接”的答案...
它给了我一些警告，但是包下载就好了。我也不认为这是“仅链接”答案的真实示例。
如果您能告诉我们为什么我们还要获得“空目录”，那就太好了，因为我自己将所有 SGM 文件都转换为 XML，没有得到真是太可惜了他们工作。
我试过你的答案，但我得到了RROR: dependency ‘XML’ is not available for package ‘tm.corpus.Reuters21578’，即使我已经安装了libxml2-dev