【发布时间】:2011-12-28 06:37:16
【问题描述】:
我会详细说明问题,所以请耐心等待:)
假设我有以下基本 URL:http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
其中列出了一些带有简洁描述的产品。每个列出的产品都有一个指向详细产品信息页面的 URL,例如:http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5
现在我的要求是(例如)获取这些产品的名称、价格和产品信息。如何使用 Nutch 实现这一目标?是否需要 Nutch/好的选项,或者只是一个简单的 wget + 自己的 HTML 解析器是更好的方法?
注意:我必须对布局非常不同的多个页面执行此操作,并且只输入 URL 以及从 URL 获取的 html 标记
【问题讨论】:
标签: html parsing html-parsing nutch