从 pdf 表 PYTHON 中提取单元格的图像答案

【问题标题】：extract image of cell from pdf table PYTHON从 pdf 表 PYTHON 中提取单元格的图像
【发布时间】：2021-10-19 17:49:33
【问题描述】：

我需要识别表格中的书面文本并在 json 中解析它。我用python来做。我真的不明白如何从 pdf 格式的表格中提取文本照片。因为通常的表格识别器不适合，因为那里无法识别书面文本。因此，我需要以某种方式从表格中剪切单元格，该怎么做？

【问题讨论】：

【解决方案1】：

PDF 格式没有“表格”和“单元格”。将 PDF 转换为 PNG 格式或其他光栅格式，并像 BlackCode 一样使用 OCR。

【讨论】：

【解决方案2】：

如果您想提取表格及其单元格，您可能需要这样的表格提取器； 1

然后在提取表格及其单元格及其坐标后，您可以选择这些像素。例如; img[x1:x2,y1:y2]

获取单元格的像素后，可以使用Tesseract OCR引擎来理解图像像素中写入的文字。

这些是您需要遵循的一般步骤，如果您更准确地提出问题，我可以为您提供更多帮助。

【讨论】：

非常感谢您的帮助！事实是我的表格可能有空单元格。而且里面的信息都是用正楷写的。你知道另一种方法吗？
嗯，我不确定 Tesseract 在其预训练版本中是否有这种字体。首先，您的单元格是否为空并不重要——意味着是否有文本——您的 OCR 引擎应该根据您的规则来确定它。正方体字母可能没有包含在 Tesseract 的训练阶段。然后你可以用你的特定字体和大小微调 Tesseract； “github.com/dshea89/tesseract-retraining-pipeline”。或者您可能想使用其他不那么流行但非常准确的选项是“EasyOCR --> github.com/JaidedAI/EasyOCR”。您可以再次在此 OCR 引擎中重新训练选项。