从 PDF 中读取文本答案

【问题标题】：Read text from PDF从 PDF 中读取文本
【发布时间】：2023-03-25 07:54:01
【问题描述】：

我在 R 中使用 pdftools 从 pdf 中获取文本，但在获取信息时遇到了一些问题。

当我尝试获取文本时，使用example 的此 pdf：

library(pdftools)
pdf_text(paste(ruta, "Factura.pdf"))

（Ruta 是您放置 pdf 的位置）。有了这个文件，我什么也得不到。此步骤适用于完美的 pdf（如 this），但当 pdf 扫描信息时会丢失准确性。

有没有其他方法可以使用 R 从 pdf 中获取文本来解决此类问题？

谢谢

【问题讨论】：

标签： r

【解决方案1】：

问题是，your example 是一个图像 PDF，它只是存储为 PDF 的图像。

如果您想从图像 PDF 中提取文本。你可以使用Tesseract

library(tesseract)
eng <- tesseract("eng")
text <- tesseract::ocr("http://jeroen.github.io/images/testocr.png", engine = eng)
cat(text)

另外，您需要先将 pdf 转换为 img。检查this answer

im.convert("bm.pdf", output = "bm.png")

【讨论】：