【发布时间】:2010-04-25 02:19:13
【问题描述】:
我正在寻找信息提取库,我可以在其中包含可能包含隐藏或不完整数据的半结构化信息。我想训练一些分类器根据结构提取内容。
我正在开发一个可以在浏览器中选择文本的工具,它会(通过一些 Web 服务调用)生成一个分类器,该分类器可以用于其他文档以提取文本。
我主要研究如何使用文档的结构来指示内容是什么。
【问题讨论】:
标签: information-extraction structured-data
我正在寻找信息提取库,我可以在其中包含可能包含隐藏或不完整数据的半结构化信息。我想训练一些分类器根据结构提取内容。
我正在开发一个可以在浏览器中选择文本的工具,它会(通过一些 Web 服务调用)生成一个分类器,该分类器可以用于其他文档以提取文本。
我主要研究如何使用文档的结构来指示内容是什么。
【问题讨论】:
标签: information-extraction structured-data
听起来您正在寻找某种 html 解析器生成器。有一个 Web 服务(我不记得它的名字)可以让您选择页面上的区域,并会生成 xpath 解析规则,但我不确定它的工作情况如何,或者即使它仍然存在。
一般来说,如果你会写代码,你自己写一个解析器是最简单的。我推荐BeautifulSoup 或lxml。
【讨论】: