【发布时间】:2013-11-25 04:00:55
【问题描述】:
我正在尝试使用众所周知的 Reuters-21578 数据集做一些工作,但在将 sgm 文件加载到我的语料库时遇到了一些问题。
我现在正在使用命令
require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578),
readerControl = list(reader = readReut21578XML))
试图将所有文件包含到我的语料库中,但这给了我以下错误:
Error in DirSource(reut21578) : empty directory
知道我哪里可能出错了吗?
【问题讨论】:
-
看看这个问题 -
tm包中似乎没有包含这些数据,您可能需要在继续之前手动下载。 stackoverflow.com/questions/10377273/… -
@Stedy:您提供的链接肯定会对我的其余分析有所帮助,但我已经下载了数据,我正在做的只是似乎没有找到合适的目录。
-
啊,明白了,好吧,我认为 R 正在寻找
tm的源代码目录。为什么不通过将文件放在Documents或桌面来简化事情,只需将其称为file("Documents/reuters-21578") -
@Stedy 是正确的,@user1422508 你应该用
Corpus(DirSource("full-path-to-dir-with-downloaded-data")...替换Corpus(DirSource(reut21578)...