【问题标题】:Scraping structured information from hundreds of Word documents?从数百个 Word 文档中抓取结构化信息?
【发布时间】:2010-11-17 08:50:23
【问题描述】:

我的任务是从数百个人类可读文档(主要是 MS Word)中提取一些结构化信息并将其放入数据库中。数据几乎嵌入整个文档的表格中,但表格之间有很多文本,尽管文档在结构上非常相似,但还是有一些差异。文档经常更改(我们每隔几个月就会得到一个更新版本)

到目前为止,我能想到的唯一可行的选择是手动浏览所有文档并插入/更新信息,但我想我想在这里问一下是否有人认为可以以某种方式刮取文档?

哦,数据必须相当正确......

【问题讨论】:

  • 文件是什么格式的? .doc、.docx、...?
  • @0xA3 主要是 doc 和 docx 的混合体,但也有一些 pdfs
  • 暂时将 PDF 放在一边,将所有 Word 文档中的所有表格复制到一个文档中是否有帮助?
  • @plutext 不这么认为,我仍然需要找到正确的表格(每个文件中大约有 20 个不同的表格),并且最终文档中有数百个单独的文档和更新会很长而且很难维护。
  • 那么该表有什么可以将它与文档中的所有其他表区分开来的,即唯一标识它吗?

标签: database parsing ms-word scrape


【解决方案1】:

我使用converter from RTF to FO 做了类似的工作(虽然没有表格)。

您已将文档转换为 RTF,然后再转换为 FO,这为您提供了一个很好的文档 XML 结构。然后,您可以轻松地解析它并抓取数据。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-08-01
    • 2014-06-25
    • 1970-01-01
    • 1970-01-01
    • 2011-01-19
    • 2014-05-01
    • 2020-07-16
    • 1970-01-01
    相关资源
    最近更新 更多