【发布时间】:2016-05-19 19:17:47
【问题描述】:
我正在尝试使用包 tm 阅读一些 PDF 文档,以便在 R 中进行文本挖掘。但是,我的 PDF 是德文的,我不知道如何处理这些特殊字符。
library(tm)
pathname <- "J:/branchwarren/docs/tm/"
raw_corpus <- VCorpus(DirSource(directory=path,encoding="UTF-8"), readerControl=list(reader=readPDF,language="de"))
tdm <- TermDocumentMatrix(raw_corpus)
tdm_mat <- as.data.frame(tdm)
例如,输出tdm_mat 是(其中的列是每个 PDF 中的频率)
1 geschã¤ftsverlauf 9 9 1 3 0 0
2 gesellschaft 1 3 1 1 1 1
3 gesellschaft. 0 0 1 1 1 0
4 gesellschaftskapital 1 1 1 1 1 1
5 gestaltung 1 1 1 1 1 1
6 gesteigert 0 0 2 0 2 6
7 gesunden 0 1 0 1 1 1
8 gewinnreserve 1 1 1 1 1 1
9 gewinnverwendung) 1 1
如您所见,第一行中的字符显示不正确。它应该是 geschäftsverlauf。
有什么帮助或建议吗?提前谢谢
【问题讨论】:
-
您可以使用
Sys.setlocale("LC_CTYPE", "german")来启动会话,而不是使用R 的utf-8编码方法。 -
@Nickil Maveli,很抱歉,它不起作用。你能详细说明一下你的回应吗?谢谢
标签: r special-characters text-mining tm