【发布时间】:2021-04-05 09:45:57
【问题描述】:
我想制作一个能够读取 PDF 文件并解析其内容的程序。 因此我需要使用某种库来提取文本。我找到了 3 种方法。
- OCR 库(如 Tesseract)
- ScanPdf 库(如 iText)
- 从 PDF 到文本的转换器。
我无法理解它们之间的巨大差异,因为它们最终都会从 PDF 中生成一个文本文件。那么解决这个问题的最佳方法是什么?
【问题讨论】:
-
如果您想阅读 PDF 文件并提取内容,那么图书馆将是最合适的。如果您的源文档是从打印的文档或图像中扫描的,OCR 会更合适。 PDF 到文本转换器将首先解析 PDF 并将文本转储到某处。这在批处理场景中可能很有用。但是,使用像 Apache PDF Box 这样的好的库可以帮助您在程序中进行读取/解析/提取。
-
你的方式 2 和 3 到底有什么区别?
-
一个是库,所以一切都发生在我的程序中,另一个是在我挖掘数据处理数据之前运行的普通程序
标签: java pdf ocr libraries scanning