【问题标题】:Information Extraction Toolkits [closed]信息提取工具包
【发布时间】:2010-04-25 02:19:13
【问题描述】:

我正在寻找信息提取库,我可以在其中包含可能包含隐藏或不完整数据的半结构化信息。我想训练一些分类器根据结构提取内容。

我正在开发一个可以在浏览器中选择文本的工具,它会(通过一些 Web 服务调用)生成一个分类器,该分类器可以用于其他文档以提取文本。

我主要研究如何使用文档的结构来指示内容是什么。

【问题讨论】:

    标签: information-extraction structured-data


    【解决方案1】:

    听起来您正在寻找某种 html 解析器生成器。有一个 Web 服务(我不记得它的名字)可以让您选择页面上的区域,并会生成 xpath 解析规则,但我不确定它的工作情况如何,或者即使它仍然存在。

    一般来说,如果你会写代码,你自己写一个解析器是最简单的。我推荐BeautifulSouplxml

    【讨论】:

    • 好吧,编写一个解析器相当简单;编写 1000 个解析器并维护它们是另一回事。
    • 是的,1000 个解析器会很糟糕。因此,我建议让浏览器工具为每个网站生成 xpath 提取表达式,然后使用通用解析器引擎使用 xpath 表达式提取内容。但是您仍然会遇到维护问题,因为网站会在不通知您的情况下更新其结构。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-06
    • 1970-01-01
    • 2020-02-05
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多