【问题标题】:Using R for Text Mining Reuters-21578使用 R 进行文本挖掘 Reuters-21578
【发布时间】:2013-11-25 04:00:55
【问题描述】:

我正在尝试使用众所周知的 Reuters-21578 数据集做一些工作,但在将 sgm 文件加载到我的语料库时遇到了一些问题。

我现在正在使用命令

require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML))

试图将所有文件包含到我的语料库中,但这给了我以下错误:

Error in DirSource(reut21578) : empty directory

知道我哪里可能出错了吗?

【问题讨论】:

  • 看看这个问题 - tm 包中似乎没有包含这些数据,您可能需要在继续之前手动下载。 stackoverflow.com/questions/10377273/…
  • @Stedy:您提供的链接肯定会对我的其余分析有所帮助,但我已经下载了数据,我正在做的只是似乎没有找到合适的目录。
  • 啊,明白了,好吧,我认为 R 正在寻找 tm 的源代码目录。为什么不通过将文件放在Documents 或桌面来简化事情,只需将其称为file("Documents/reuters-21578")
  • @Stedy 是正确的,@user1422508 你应该用Corpus(DirSource("full-path-to-dir-with-downloaded-data")... 替换Corpus(DirSource(reut21578)...

标签: r corpus tm reuters


【解决方案1】:

“tm”包仅包含 Reuters21578 数据的样本。如果您想避免下载、加载和准备所有 22 个 Reuters21578 文件,可以使用 package "tm.corpus.Reuters21578":

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)

【讨论】:

  • 有一条评论声称该 URL 不再起作用。这就是链接的问题,它们往往会中断。因此,不鼓励“仅链接”的答案...
  • 它给了我一些警告,但是包下载就好了。我也不认为这是“仅链接”答案的真实示例。
  • 如果您能告诉我们为什么我们还要获得“空目录”,那就太好了,因为我自己将所有 SGM 文件都转换为 XML,没有得到真是太可惜了他们工作。
  • 我试过你的答案,但我得到了RROR: dependency ‘XML’ is not available for package ‘tm.corpus.Reuters21578’,即使我已经安装了libxml2-dev
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2015-08-04
  • 2013-11-17
  • 1970-01-01
  • 2018-05-09
  • 2011-08-31
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多