【问题标题】:Using Nutch to fetch particular HTML Tags使用 Nutch 获取特定的 HTML 标签
【发布时间】:2011-12-28 06:37:16
【问题描述】:

我会详细说明问题,所以请耐心等待:)

假设我有以下基本 URL:http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
其中列出了一些带有简洁描述的产品。每个列出的产品都有一个指向详细产品信息页面的 URL,例如:http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5

现在我的要求是(例如)获取这些产品的名称、价格和产品信息。如何使用 Nutch 实现这一目标?是否需要 Nutch/好的选项,或者只是一个简单的 wget + 自己的 HTML 解析器是更好的方法?

注意:我必须对布局非常不同的多个页面执行此操作,并且只输入 URL 以及从 URL 获取的 html 标记

【问题讨论】:

    标签: html parsing html-parsing nutch


    【解决方案1】:

    解决同样的问题。然而,实现目标似乎有一些累人的步骤:

    1-抓取 2-index 3-通过 -readseg 获取原始 html 4-解析文件以获取所需信息

    所以,Nutch 似乎不是做到这一点的好方法。你找到答案了吗?

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-07-18
      • 2023-03-05
      • 2018-10-12
      • 2013-09-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多