【发布时间】:2010-11-17 08:50:23
【问题描述】:
我的任务是从数百个人类可读文档(主要是 MS Word)中提取一些结构化信息并将其放入数据库中。数据几乎嵌入整个文档的表格中,但表格之间有很多文本,尽管文档在结构上非常相似,但还是有一些差异。文档经常更改(我们每隔几个月就会得到一个更新版本)
到目前为止,我能想到的唯一可行的选择是手动浏览所有文档并插入/更新信息,但我想我想在这里问一下是否有人认为可以以某种方式刮取文档?
哦,数据必须相当正确......
【问题讨论】:
-
文件是什么格式的? .doc、.docx、...?
-
@0xA3 主要是 doc 和 docx 的混合体,但也有一些 pdfs
-
暂时将 PDF 放在一边,将所有 Word 文档中的所有表格复制到一个文档中是否有帮助?
-
@plutext 不这么认为,我仍然需要找到正确的表格(每个文件中大约有 20 个不同的表格),并且最终文档中有数百个单独的文档和更新会很长而且很难维护。
-
那么该表有什么可以将它与文档中的所有其他表区分开来的,即唯一标识它吗?
标签: database parsing ms-word scrape