【发布时间】:2020-05-20 08:30:51
【问题描述】:
简介:
我正在尝试从大量文本的图像中获取某些文本。
光是想想,应该至少有两种方法可以处理这个问题:
一种方法是首先按文本区域对图像进行分割——例如,用一堆包含样本文本的样本图像训练神经网络,然后让训练好的模型定位相应的文本区域在真实图像中,然后从图像中裁剪出该区域,保存 - 然后使用,例如,pytesseract 将图像转换为字符串。
另一种方法是反转过程。首先将图像转换成字符串,然后用样本真实文本训练神经网络,然后让训练好的模型在图像转换的文本中找到对应的文本。
所以,我的问题列在下面:
可以在不训练神经网络的情况下解决这个问题吗?就运行程序所需的时间而言,它会比 NN 更有效 和 结果的准确性?
就运行程序所需的时间而言,在我编写的上述两种方法中,哪种更好和结果的准确性?
- 还有其他有经验的建议吗?
如有需要,可提供其他背景信息:
所以,我有几组不同网页的截图,每组都有很多文字。我想从大量文本中提取某些段落。我想提取的段落表达了相似的东西,但在不同的上下文中。
例如,在一个大型的混合在线论坛平台上,许多cmet是在不同的东西上制作的,有些是山水的,有些是政治的,有些是科学的……因为那个平台不能只有一页,所以必须有数百个页面,无数用户在其中制作他们的 cmets。现在我想从整个论坛,即从该平台的所有页面中,专门提取有关政治的 cmets。所以我会使用Python + Selenium 来抓取页面并保存屏幕截图。现在我们需要回到上面提出的问题。现在做什么?
更新:
只是一个想法过去了。可能由包含文本的图像训练的 NN 无法给出所需文本的非常准确的位置,因为 NN 可能只寻找像素的排列,而不是组成句子或段落的单词甚至含义。那么也许第二种方法,文本处理,在这种情况下可能会更好? (比如NLP?)
【问题讨论】:
-
@Aaron 我试过了。但实际情况比给出的示例更复杂,大约是。相当于从不同论坛的页面中提取文本。如果我使用
css selectors或x path,我将需要手动复制数百甚至更多的东西,这效率低下并且很容易产生错误。所以我认为解决这个问题的最佳方法可能是使用图像。
标签: python-3.x image-processing web-scraping neural-network nlp