【发布时间】:2009-08-14 04:24:23
【问题描述】:
我需要从 PDF 文件中提取文本。此文本可能采用表格格式,用于在外部方和我们的系统之间自动传输数据。
任何人都可以推荐一个命令行工具(例如 pdf 到 txt)或对此有用的库吗?
语言选项:
- C#(首选)
- Java(如果必须的话)
我在这里找到了一些想法,但我认为这家伙说的更多是一次性的情况,我说的更像是日常导入:
https://*.com/questions/488089/extracting-tables-from-pdf-files
【问题讨论】:
-
是否要保留文本的表格格式?如果是这样,任务将变得更加困难,如果不是,那么任何建议的 PDF 到文本库都应该这样做。
-
表格格式并不重要,它只需要机器可读,这样我就可以解析它并将其推入数据库。