【问题标题】:Post processing of pages crawled using nutch使用 nutch 对抓取的页面进行后处理
【发布时间】:2012-03-06 14:14:01
【问题描述】:

我有一组使用 nutch 抓取的页面。而且我知道这个抓取的页面被保存为段。我想从此页面中提取某些键值并将其作为 xml 提供给 solr。

一个示例情况是,我抓取了一个包含许多产品列表的购物网站。我想提取产品的名称、价格、规格等关键信息,并忽略其余数据。这样我就可以提供一些 xml 来解决 qwerty123qwerty 这样,使用 solr 我应该能够根据价格对不同的产品列表进行排序。

现在这个提取部分怎么做? map reduce 有没有出现在图片中的任何地方?

【问题讨论】:

    标签: solr lucene mapreduce nutch


    【解决方案1】:

    将原始网页转化为信息并非易事。用于这项工作的一种工具是 Boilerpipe。但是,它不会给你一个板上钉钉的解决方案。

    如果您正在处理固定目标,您可能只需编写自己的程序代码来查找您需要的数据。如果您需要在任意 HTML 中找到此类内容,那么您将面临一个非常棘手的问题,没有现成的解决方案。

    【讨论】:

    • 这不是真正的任意 HTML。提取部分实际上可以用简单的正则表达式来完成。我在想是否有任何特定的解决方案来解析 nutch 创建的这些片段。
    • Nutch 只是抓取 whar 通过 http 返回的文本,不是吗?
    • 是的。但似乎以其他格式存储,而不是 html 或 txt 格式
    猜你喜欢
    • 1970-01-01
    • 2016-09-11
    • 2015-07-15
    • 1970-01-01
    • 2019-12-08
    • 2021-11-02
    • 1970-01-01
    • 2017-09-26
    • 1970-01-01
    相关资源
    最近更新 更多