使用 Nutch 获取特定的 HTML 标签答案

【问题标题】：Using Nutch to fetch particular HTML Tags使用 Nutch 获取特定的 HTML 标签
【发布时间】：2011-12-28 06:37:16
【问题描述】：

我会详细说明问题，所以请耐心等待:)

现在我的要求是（例如）获取这些产品的名称、价格和产品信息。如何使用 Nutch 实现这一目标？是否需要 Nutch/好的选项，或者只是一个简单的 wget + 自己的 HTML 解析器是更好的方法？

注意：我必须对布局非常不同的多个页面执行此操作，并且只输入 URL 以及从 URL 获取的 html 标记

【问题讨论】：

【解决方案1】：

解决同样的问题。然而，实现目标似乎有一些累人的步骤：

1-抓取 2-index 3-通过 -readseg 获取原始 html 4-解析文件以获取所需信息

所以，Nutch 似乎不是做到这一点的好方法。你找到答案了吗？

【讨论】：