改进 Tesseract OCR 中的预处理步骤以实现实时捕获答案

【问题标题】：Improve pre-processing steps in Tesseract OCR for realtime capture改进 Tesseract OCR 中的预处理步骤以实现实时捕获
【发布时间】：2023-12-22 13:18:02
【问题描述】：

我正在使用 Tesseract 库读取身份证信息。我尝试使用一些Google images 并获得了不错的效果，但是当我使用实时图像时，即从 iPhone 相机捕获图像时，我没有得到很好的效果。

我发现了 Tesseract 建议的一些预处理步骤。

1.修复 DPI（如果需要）最低 300 DPI。

iPhone摄像头实时抓图时如何设置图像的DPI？

2。修正文本大小（例如 12 pt 应该没问题）。

如何修复 iPhone 摄像头生成的大图的文字大小？

3.尝试修复文本行（去歪斜和扭曲文本）。

我读到 Tesseract 使用 Leptonica 库应用去扭曲文本。在这个预处理阶段，文本是否需要去扭曲或去扭曲。？

4.尝试修复图像的照明（例如图像没有暗部）。

我可以使用 OpenCV 对图像进行照明吗？

5.对图像进行二值化和去噪。

当我为实时图像应用阈值或自适应阈值时，我得到的二值化图像很差。

如何对这些实时图像进行二值化？

【问题讨论】：

标签： ios ocr tesseract

【解决方案1】：

1. 和 2.: 当文本的磅值大小为 12 时，这意味着它在 72 DPI 下占用 12 个像素的高度。在 300 DPI 下，这大约是 50 像素。因此，您应该从 1. 和 2. 中获得的是，您应该尝试使捕获的图像的分辨率使文本行高约 50 像素。你将如何做到这一点取决于你如何捕捉图像。
1. 要求用户将相机笔直握住更容易 :-)
1. 和 5.. 您可以尝试应用一些过滤。同样，询问用户以确保应用适当的照明可能更容易。

【讨论】：

我认为 OP 宁愿以编程方式执行这些步骤。运气好吗？