【发布时间】:2013-06-14 06:03:00
【问题描述】:
我希望将this PDF 中的信息抓取为以下格式:
我已经圈出了 PDF 中信息的来源。
如您所见,此 PDF 的格式高度非结构化,更糟糕的是,不同的 PDF 可能采用完全不同的布局,并且还会缺少信息。不熟悉采矿的人已经很难解析此 PDF,因为并非所有信息都已明确标记。
所以我的问题是:是否有可能提出一种自动化的方法来处理数千个这样的 PDF?如果是这样,我将如何开始完成这项任务?我可以很好地使用 R 和 Python 进行编程。
我意识到这是一项相当困难(如果不是不可能的话)的任务。感谢您的意见。
【问题讨论】:
-
使用 Python 从 PDF 中提取文本。 stackoverflow.com/questions/1848464/…
-
高度非结构化 + 完全不同的布局 = 没有真正的人工智能,就没有自动化方法。你能做到的最好希望是一些半自动化的方法,即一些应用程序显示 PDF 并要求用户标记数据项以逐个提取。
-
@mkl 感谢您的回复。 “没有真正的人工智能……”——我们在这里谈论什么样的人工智能?即使有了人工智能和机器学习,这项任务是否可行?如果是这样,技术是什么?我知道一些 SVM、NN 等,但并不真正了解它们如何在这里提供帮助。
-
对于有些非结构化 + 详细说明不同的布局我假设一些当前的机器学习方法可以做到。但是,对于高度非结构化 + 完全不同的布局,恐怕您需要HAL 9000。
-
@mkl =( 这就是我所担心的。
标签: pdf pdf-scraping