如何在 R 中读取 pdf 文件答案

【问题标题】：How to read pdf file in R如何在 R 中读取 pdf 文件
【发布时间】：2016-11-30 06:17:48
【问题描述】：

有人可以帮我告诉我如何阅读 pdf 文件，其中包括一些表格。我想把表中的数据提取出来，整理成csv文件。

非常感谢

【问题讨论】：

可能重复stackoverflow.com/questions/3852354/…
+ 那里提到的功能：inside-r.org/packages/cran/tm/docs/readPDF
欢迎来到 Stack Overflow！请浏览tour、help center 和how to ask a good question 部分，了解本网站的工作原理并帮助您改进当前和未来的问题，从而获得更好的答案。最好的方法是在此处提问之前先进行 Google 或 SO 搜索，如果您有特定的问题，例如您尝试过某事但它不起作用，那么对于这种格式来说，这将是一个更合适的问题。

标签： r pdf

【解决方案1】：

我意识到这个问题比较老，但我认为可重复的例子可能不会受到伤害：

library(pdftools)
pdftools::pdf_text(pdf = "http://arxiv.org/pdf/1403.2805.pdf")

离线版：

pdf(file = "tmp.pdf")
plot(1, main = "mytext")
dev.off()
pdftools::pdf_text(pdf = "tmp.pdf")

我不时回到这个问题，即使当前的答案很好，我总是希望找到可重现的代码。所以我想我添加它。如果不需要，可以将其删除。

【讨论】：

【解决方案2】：

您可以在 Reading PDF files into R for text mining 找到弗吉尼亚大学的详细说明。我在下面提取的一些信息。

请按照上面链接中描述的安装说明进行操作。

完成后，您就可以使用 readPDF 创建读取 PDF 文件的函数了。您可以随意命名函数，例如 Rpdf。

Rpdf <- readPDF(control = list(text = "-layout"))

readPDF 函数有一个控制参数，我们用它来将选项传递给我们的 PDF 提取引擎。这必须是列表的形式，因此我们将选项包装在列表函数中。 xpdf引擎有两个控制参数：info和text。 info 将参数传递给 pdfinfo.exe，text 将参数传递给 pdftotext.exe。我们只向 pdftotext 传递一个参数设置：“-layout”。这告诉 pdftptext.exe 保持（尽可能）文本的原始物理布局。

使用 Rpdf 函数，我们可以继续阅读意见文本。我们要做的是将 PDF 文件转换为文本并将它们存储在语料库中，语料库基本上是一个文本数据库。我们可以使用以下代码完成所有这些操作：

opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))

【讨论】：