Python中的文本/图像处理答案

【问题标题】：Text/Image processing in PythonPython中的文本/图像处理
【发布时间】：2020-05-20 08:30:51
【问题描述】：

简介：

我正在尝试从大量文本的图像中获取某些文本。

光是想想，应该至少有两种方法可以处理这个问题：

一种方法是首先按文本区域对图像进行分割——例如，用一堆包含样本文本的样本图像训练神经网络，然后让训练好的模型定位相应的文本区域在真实图像中，然后从图像中裁剪出该区域，保存 - 然后使用，例如，pytesseract 将图像转换为字符串。

另一种方法是反转过程。首先将图像转换成字符串，然后用样本真实文本训练神经网络，然后让训练好的模型在图像转换的文本中找到对应的文本。

所以，我的问题列在下面：

可以在不训练神经网络的情况下解决这个问题吗？就运行程序所需的时间而言，它会比 NN 更有效 和 结果的准确性？
就运行程序所需的时间而言，在我编写的上述两种方法中，哪种更好和结果的准确性？
还有其他有经验的建议吗？

如有需要，可提供其他背景信息：

所以，我有几组不同网页的截图，每组都有很多文字。我想从大量文本中提取某些段落。我想提取的段落表达了相似的东西，但在不同的上下文中。

例如，在一个大型的混合在线论坛平台上，许多cmet是在不同的东西上制作的，有些是山水的，有些是政治的，有些是科学的……因为那个平台不能只有一页，所以必须有数百个页面，无数用户在其中制作他们的 cmets。现在我想从整个论坛，即从该平台的所有页面中，专门提取有关政治的 cmets。所以我会使用Python + Selenium 来抓取页面并保存屏幕截图。现在我们需要回到上面提出的问题。现在做什么？

更新：

只是一个想法过去了。可能由包含文本的图像训练的 NN 无法给出所需文本的非常准确的位置，因为 NN 可能只寻找像素的排列，而不是组成句子或段落的单词甚至含义。那么也许第二种方法，文本处理，在这种情况下可能会更好？（比如NLP？）

【问题讨论】：

@Aaron 我试过了。但实际情况比给出的示例更复杂，大约是。相当于从不同论坛的页面中提取文本。如果我使用css selectors 或x path，我将需要手动复制数百甚至更多的东西，这效率低下并且很容易产生错误。所以我认为解决这个问题的最佳方法可能是使用图像。

标签： python-3.x image-processing web-scraping neural-network nlp

【解决方案1】：

因此，您决定不解析文本，而是将其保存为图像，然后从该图像中检测文本。

文字 -> 图片 -> 文字

这是解析网页的最坏情况。

在处理 OCR 时，您必须预料到许多问题，例如：

高 CPU 消耗；
不同的字体；
隐藏元素（如“查看全文”）；
还有主要的 - 你不能 100% 准确地进行 OCR。

如果您尝试创建通用解析器，则应该只从没有任何“垃圾”的任何页面中抓取所需的文本 - 这几乎是空想。

据我所知，这就是“HTML 可读性”技术（Safari 和 Firefox 等浏览器使用它）。但是我不能说它将如何与论坛一起工作。论坛是一种非常特殊的页面格式。

【讨论】：