信息提取工具包答案

【问题标题】：Information Extraction Toolkits [closed]信息提取工具包
【发布时间】：2010-04-25 02:19:13
【问题描述】：

我正在寻找信息提取库，我可以在其中包含可能包含隐藏或不完整数据的半结构化信息。我想训练一些分类器根据结构提取内容。

我正在开发一个可以在浏览器中选择文本的工具，它会（通过一些 Web 服务调用）生成一个分类器，该分类器可以用于其他文档以提取文本。

我主要研究如何使用文档的结构来指示内容是什么。

【问题讨论】：

【解决方案1】：

听起来您正在寻找某种 html 解析器生成器。有一个 Web 服务（我不记得它的名字）可以让您选择页面上的区域，并会生成 xpath 解析规则，但我不确定它的工作情况如何，或者即使它仍然存在。

一般来说，如果你会写代码，你自己写一个解析器是最简单的。我推荐BeautifulSoup 或lxml。

【讨论】：

好吧，编写一个解析器相当简单；编写 1000 个解析器并维护它们是另一回事。
是的，1000 个解析器会很糟糕。因此，我建议让浏览器工具为每个网站生成 xpath 提取表达式，然后使用通用解析器引擎使用 xpath 表达式提取内容。但是您仍然会遇到维护问题，因为网站会在不通知您的情况下更新其结构。