【问题标题】:extract image of cell from pdf table PYTHON从 pdf 表 PYTHON 中提取单元格的图像
【发布时间】:2021-10-19 17:49:33
【问题描述】:

我需要识别表格中的书面文本并在 json 中解析它。我用python来做。我真的不明白如何从 pdf 格式的表格中提取文本照片。因为通常的表格识别器不适合,因为那里无法识别书面文本。因此,我需要以某种方式从表格中剪切单元格,该怎么做?

【问题讨论】:

  • 你能提供一个示例pdf文件吗?

标签: python json opencv neural-network computer-vision


【解决方案1】:

PDF 格式没有“表格”和“单元格”。 将 PDF 转换为 PNG 格式或其他光栅格式,并像 BlackCode 一样使用 OCR。

【讨论】:

    【解决方案2】:

    如果您想提取表格及其单元格,您可能需要这样的表格提取器; 1

    然后在提取表格及其单元格及其坐标后,您可以选择这些像素。例如; img[x1:x2,y1:y2]

    获取单元格的像素后,可以使用Tesseract OCR引擎来理解图像像素中写入的文字。

    这些是您需要遵循的一般步骤,如果您更准确地提出问题,我可以为您提供更多帮助。

    【讨论】:

    • 非常感谢您的帮助!事实是我的表格可能有空单元格。而且里面的信息都是用正楷写的。你知道另一种方法吗?
    • 嗯,我不确定 Tesseract 在其预训练版本中是否有这种字体。首先,您的单元格是否为空并不重要——意味着是否有文本——您的 OCR 引擎应该根据您的规则来确定它。正方体字母可能没有包含在 Tesseract 的训练阶段。然后你可以用你的特定字体和大小微调 Tesseract; “github.com/dshea89/tesseract-retraining-pipeline”。或者您可能想使用其他不那么流行但非常准确的选项是“EasyOCR --> github.com/JaidedAI/EasyOCR”。您可以再次在此 OCR 引擎中重新训练选项。
    猜你喜欢
    • 1970-01-01
    • 2020-04-04
    • 1970-01-01
    • 2019-10-15
    • 2021-03-14
    • 1970-01-01
    • 2013-12-18
    • 2011-01-29
    相关资源
    最近更新 更多