【发布时间】:2018-04-19 07:33:11
【问题描述】:
我有几个 PDF 格式的考试。我想以编程方式将每个问题提取为单独的图像/文档。 OCR 并不理想,因为它不能很好地维护代码/方程式格式。最终目标是制作卡片,每张卡片都包含整个问题的图像。问题可以在同一页面上,也可以是多部分的(例如 1a、2f 等)。
目前,我正在考虑使用 OCR 来提取问题标签(例如 1、2、3 等),然后在 pdf 中找到它们的位置,并从一个问题的开头到下一个问题的开头提取一个 iamge .是否有任何框架或软件可以做到这一点或提供某种替代方法来使这更容易?
【问题讨论】:
-
对于 OCR 和图像识别部分,您可以随时尝试Azure Cognitive Services(如果可以在线连接)。无论如何都可以免费试用,如果有帮助,我已经写了一个 blog post 来讲述我的经历。
标签: python pdf ocr image-recognition pdf-parsing