【发布时间】:2019-11-03 05:52:46
【问题描述】:
我有一个扫描的 PDF,其中包含一些表格格式的随机数据,我想将其复制到 Excel 工作表中。
我玩过数字 PDF 并使用“表格”来提取表格,但扫描的 PDF 需要 OCR(我在 google 上看到的)。 我知道涉及到 OCR(tesseract),但不知道我应该采取什么方法来解决问题。
【问题讨论】:
我有一个扫描的 PDF,其中包含一些表格格式的随机数据,我想将其复制到 Excel 工作表中。
我玩过数字 PDF 并使用“表格”来提取表格,但扫描的 PDF 需要 OCR(我在 google 上看到的)。 我知道涉及到 OCR(tesseract),但不知道我应该采取什么方法来解决问题。
【问题讨论】:
看看 Tesseract 的 TSV(制表符分隔值)输出格式,看看 Excel 是否可以读取或导入它。可能需要进行一些转换才能将其转换为 Excel 可使用的格式。
https://digi.bib.uni-mannheim.de/tesseract/manuals/tesseract.1.html
【讨论】: