【发布时间】:2015-06-21 19:51:57
【问题描述】:
我正在构建一个 OCR 项目,并且我正在为 Tesseract 使用 .Net 包装器。包装器的示例没有显示如何处理 PDF 作为输入。使用 PDF 作为输入如何使用 c# 生成可搜索的 PDF?
- 我使用 ghostscript 库将 Pdf 更改为图像,然后用它提供 Tesseract,它在获取文本时效果很好,但我没有保存 Pdf 的原始形状,我只获取文本
如何通过保存原始 Pdf 的形状从 Pdf 中获取文本
这是一个来自 pdf 的页面,我不想要只有文本,我希望文本的形状像原始 pdf 一样,抱歉英语不好
【问题讨论】:
-
您需要一个库来将 PDF 转换为
Image。然后使用同一个库创建可搜索的 PDF。 -
哪个库最适合这项工作,您能否为我提供一个如何执行此操作的示例.. 我想保存原始 pdf 的形状并在其下添加文本层 @朱哈尔
-
删除了不必要的信息,将外部链接内联并修复了语法。这个问题需要“您尝试过的内容”(就实际代码而言),否则可能会被否决或被关闭。