使用 nutch 对抓取的页面进行后处理

【问题标题】：Post processing of pages crawled using nutch使用 nutch 对抓取的页面进行后处理
【发布时间】：2012-03-06 14:14:01
【问题描述】：

我有一组使用 nutch 抓取的页面。而且我知道这个抓取的页面被保存为段。我想从此页面中提取某些键值并将其作为 xml 提供给 solr。

一个示例情况是，我抓取了一个包含许多产品列表的购物网站。我想提取产品的名称、价格、规格等关键信息，并忽略其余数据。这样我就可以提供一些 xml 来解决 qwerty123qwerty 这样，使用 solr 我应该能够根据价格对不同的产品列表进行排序。

现在这个提取部分怎么做？ map reduce 有没有出现在图片中的任何地方？

【问题讨论】：

【解决方案1】：

将原始网页转化为信息并非易事。用于这项工作的一种工具是 Boilerpipe。但是，它不会给你一个板上钉钉的解决方案。

如果您正在处理固定目标，您可能只需编写自己的程序代码来查找您需要的数据。如果您需要在任意 HTML 中找到此类内容，那么您将面临一个非常棘手的问题，没有现成的解决方案。

【讨论】：