【问题标题】:Parse data with tika for apache solr使用 tika 为 apache solr 解析数据
【发布时间】:2014-10-19 20:20:04
【问题描述】:

我已经设法让 apache nutch 索引一个新闻网站并将结果传递给 Apache solr。

使用本教程 https://github.com/renepickhardt/metalcon/wiki/simpleNutchSolrSetup 唯一的区别是我决定改用 Cassandra。

作为测试,我正在尝试爬取 Cnn,以提取文章的标题和发布日期。

问题一:

如何从网页中解析数据,提取日期和标题。

我发现这篇文章的插件。它似乎有点过时了,我不确定它是否仍然适用。我也读过 Tika 也可以使用,但大多数教程都很老了。

http://www.ryanpfister.com/2009/04/how-to-sort-by-date-with-nutch/

另一篇SO文章是这个

How to extend Nutch for article crawling。我更喜欢使用 Nutch,只是因为那是我开始的。我真的没有偏好。

任何事情都会有很大帮助。

【问题讨论】:

  • 您的主要问题是否只是获取特定的 HTML 元数据字段(如“pubdate”和“title”)?
  • 是的,我也想在 solr 中索引它们。
  • 你的意思是 nutch 只索引一些字段,但标题、日期字段不会索引到 solr 对吗?

标签: solr web-crawler nutch


【解决方案1】:

Norconex HTTP Collector 将与您的文档一起存储它可以找到的所有可能的元数据,没有任何限制。范围从下载页面时获得的 HTTP Header 值到该 HTML 页面中的所有标签。

这对您来说可能是太多的字段。如果是这样,您可以拒绝不想要的那些,或者通过在配置中的 <importer> 部分添加“KeepOnlyTagger”来明确说明您想要保留的那些:

<tagger class="com.norconex.importer.tagger.impl.KeepOnlyTagger"
    fields="title,pubdate,anotherone,etc"/>

您可以在此处找到如何快速入门以及配置选项:http://www.norconex.com/product/collector-http/configuration.html

【讨论】:

    猜你喜欢
    • 2017-09-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-07-16
    • 1970-01-01
    • 2019-04-05
    • 2017-05-07
    • 1970-01-01
    相关资源
    最近更新 更多