【问题标题】:Apache Nutch to index only part of page contentApache Nutch 仅索引部分页面内容
【发布时间】:2011-10-01 14:13:43
【问题描述】:

将使用Apache Nutch v1.3 仅从网页中提取一些特定内容。检查 parse-html 插件。似乎它使用 tagsoup 或 nekohtml 规范化每个 html 页面。这很好。我只需要提取网页上<span class='xxx'><span class='yyy'> elemetns 中的文本。如果将提取的文本保存到不同的字段中(例如content_xxxcontent_yyy),那就太好了。 我的问题是:我应该编写自己的插件还是可以使用某种标准方式来完成?

最好的方法是在标准化网页上应用 XSLT 并获得结果。这可能吗?

【问题讨论】:

    标签: solr nutch


    【解决方案1】:

    构建自己的 ParsingFilter 和 IndexingFilter 很容易。 Nutch 为你提供了 DOM 文档,你只需要遍历和搜索你的 div 即可。然后,您只需将新字段添加到您的索引和架构中即可。

    有一些关于如何做到这一点的例子:

    http://wiki.apache.org/nutch/HowToMakeCustomSearch

    http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html

    祝你好运

    【讨论】:

      【解决方案2】:

      默认情况下,解析后的内容是平坦的。 所以我认为你不能做你想做的事,除非你可以在索引步骤中提取你的内容,即一旦内容被展平。

      【讨论】:

        【解决方案3】:

        除了编写自己的插件之外,您还可以使用这些自定义插件,这些插件可以配置为提取部分页面:

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2016-09-11
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2017-11-13
          相关资源
          最近更新 更多