【问题标题】:Read text from PDF从 PDF 中读取文本
【发布时间】:2023-03-25 07:54:01
【问题描述】:

我在 R 中使用 pdftools 从 pdf 中获取文本,但在获取信息时遇到了一些问题。

当我尝试获取文本时,使用example 的此 pdf:

library(pdftools)
pdf_text(paste(ruta, "Factura.pdf"))

(Ruta 是您放置 pdf 的位置)。 有了这个文件,我什么也得不到。此步骤适用于完美的 pdf(如 this),但当 pdf 扫描信息时会丢失准确性。

有没有其他方法可以使用 R 从 pdf 中获取文本来解决此类问题?

谢谢

【问题讨论】:

  • 您什么也得不到,因为此 PDF 中没有文本,只有图像。如果要从图像中获取文本,则需要 OCR。
  • 看看tesseract 包。

标签: r


【解决方案1】:

问题是,your example 是一个图像 PDF,它只是存储为 PDF 的图像。

如果您想从图像 PDF 中提取文本。你可以使用Tesseract

library(tesseract)
eng <- tesseract("eng")
text <- tesseract::ocr("http://jeroen.github.io/images/testocr.png", engine = eng)
cat(text)

另外,您需要先将 pdf 转换为 img。检查this answer

im.convert("bm.pdf", output = "bm.png")

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-12-29
    • 1970-01-01
    • 1970-01-01
    • 2019-12-29
    • 1970-01-01
    • 2014-11-21
    • 1970-01-01
    • 2011-08-09
    相关资源
    最近更新 更多