从数百个 Word 文档中抓取结构化信息？答案

【问题标题】：Scraping structured information from hundreds of Word documents?从数百个 Word 文档中抓取结构化信息？
【发布时间】：2010-11-17 08:50:23
【问题描述】：

我的任务是从数百个人类可读文档（主要是 MS Word）中提取一些结构化信息并将其放入数据库中。数据几乎嵌入整个文档的表格中，但表格之间有很多文本，尽管文档在结构上非常相似，但还是有一些差异。文档经常更改（我们每隔几个月就会得到一个更新版本）

到目前为止，我能想到的唯一可行的选择是手动浏览所有文档并插入/更新信息，但我想我想在这里问一下是否有人认为可以以某种方式刮取文档？

哦，数据必须相当正确......

【问题讨论】：

【解决方案1】：

我使用converter from RTF to FO 做了类似的工作（虽然没有表格）。

您已将文档转换为 RTF，然后再转换为 FO，这为您提供了一个很好的文档 XML 结构。然后，您可以轻松地解析它并抓取数据。

【讨论】：