【发布时间】:2023-03-25 07:54:01
【问题描述】:
我在 R 中使用 pdftools 从 pdf 中获取文本,但在获取信息时遇到了一些问题。
当我尝试获取文本时,使用example 的此 pdf:
library(pdftools)
pdf_text(paste(ruta, "Factura.pdf"))
(Ruta 是您放置 pdf 的位置)。 有了这个文件,我什么也得不到。此步骤适用于完美的 pdf(如 this),但当 pdf 扫描信息时会丢失准确性。
有没有其他方法可以使用 R 从 pdf 中获取文本来解决此类问题?
谢谢
【问题讨论】:
-
您什么也得不到,因为此 PDF 中没有文本,只有图像。如果要从图像中获取文本,则需要 OCR。
-
看看
tesseract包。
标签: r