Apache Nutch 仅索引部分页面内容答案

【问题标题】：Apache Nutch to index only part of page contentApache Nutch 仅索引部分页面内容
【发布时间】：2011-10-01 14:13:43
【问题描述】：

将使用Apache Nutch v1.3 仅从网页中提取一些特定内容。检查 parse-html 插件。似乎它使用 tagsoup 或 nekohtml 规范化每个 html 页面。这很好。我只需要提取网页上<span class='xxx'> 和<span class='yyy'> elemetns 中的文本。如果将提取的文本保存到不同的字段中（例如content_xxx、content_yyy），那就太好了。我的问题是：我应该编写自己的插件还是可以使用某种标准方式来完成？

最好的方法是在标准化网页上应用 XSLT 并获得结果。这可能吗？

【问题讨论】：

标签： solr nutch

【解决方案1】：

构建自己的 ParsingFilter 和 IndexingFilter 很容易。 Nutch 为你提供了 DOM 文档，你只需要遍历和搜索你的 div 即可。然后，您只需将新字段添加到您的索引和架构中即可。

有一些关于如何做到这一点的例子：

http://wiki.apache.org/nutch/HowToMakeCustomSearch

http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html

祝你好运

【讨论】：

【解决方案2】：

默认情况下，解析后的内容是平坦的。所以我认为你不能做你想做的事，除非你可以在索引步骤中提取你的内容，即一旦内容被展平。

【讨论】：

【解决方案3】：

除了编写自己的插件之外，您还可以使用这些自定义插件，这些插件可以配置为提取部分页面：

【讨论】：