【问题标题】:Text/Image processing in PythonPython中的文本/图像处理
【发布时间】:2020-05-20 08:30:51
【问题描述】:

简介

我正在尝试从大量文本的图像中获取某些文本。

光是想想,应该至少有两种方法可以处理这个问题:

一种方法是首先按文本区域对图像进行分割——例如,用一堆包含样本文本的样本图像训练神经网络,然后让训练好的模型定位相应的文本区域在真实图像中,然后从图像中裁剪出该区域,保存 - 然后使用,例如,pytesseract 将图像转换为字符串。

另一种方法是反转过程。首先将图像转换成字符串,然后用样本真实文本训练神经网络,然后让训练好的模型在图像转换的文本中找到对应的文本。


所以,我的问题列在下面

  1. 可以在不训练神经网络的情况下解决这个问题吗?运行程序所需的时间而言,它会比 NN 更有效结果的准确性

  2. 运行程序所需的时间而言,在我编写的上述两种方法中,哪种更好结果的准确性

  3. 还有其他有经验的建议吗?

如有需要,可提供其他背景信息

所以,我有几组不同网页的截图,每组都有很多文字。我想从大量文本中提取某些段落。我想提取的段落表达了相似的东西,但在不同的上下文中。

例如,在一个大型的混合在线论坛平台上,许多cmet是在不同的东西上制作的,有些是山水的,有些是政治的,有些是科学的……因为那个平台不能只有一页,所以必须有数百个页面,无数用户在其中制作他们的 cmets。现在我想从整个论坛,即从该平台的所有页面中,专门提取有关政治的 cmets。所以我会使用Python + Selenium 来抓取页面并保存屏幕截图。现在我们需要回到上面提出的问题。现在做什么?


更新:

只是一个想法过去了。可能由包含文本的图像训练的 NN 无法给出所需文本的非常准确的位置,因为 NN 可能只寻找像素的排列,而不是组成句子或段落的单词甚至含义。那么也许第二种方法,文本处理,在这种情况下可能会更好? (比如NLP?)

【问题讨论】:

  • @Aaron 我试过了。但实际情况比给出的示例更复杂,大约是。相当于从不同论坛的页面中提取文本。如果我使用css selectorsx path,我将需要手动复制数百甚至更多的东西,这效率低下并且很容易产生错误。所以我认为解决这个问题的最佳方法可能是使用图像。

标签: python-3.x image-processing web-scraping neural-network nlp


【解决方案1】:

因此,您决定不解析文本,而是将其保存为图像,然后从该图像中检测文本。

文字 -> 图片 -> 文字

这是解析网页的最坏情况。

在处理 OCR 时,您必须预料到许多问题,例如:

  1. 高 CPU 消耗;

  2. 不同的字体;

  3. 隐藏元素(如“查看全文”);

  4. 还有主要的 - 你不能 100% 准确地进行 OCR。

如果您尝试创建通用解析器,则应该只从没有任何“垃圾”的任何页面中抓取所需的文本 - 这几乎是空想。

据我所知,这就是“HTML 可读性”技术(Safari 和 Firefox 等浏览器使用它)。但是我不能说它将如何与论坛一起工作。论坛是一种非常特殊的页面格式。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-01-27
    • 2011-05-31
    • 1970-01-01
    • 2017-05-11
    • 1970-01-01
    • 2021-08-27
    • 1970-01-01
    • 2011-10-16
    相关资源
    最近更新 更多