使用 tika 为 apache solr 解析数据答案

【问题标题】：Parse data with tika for apache solr使用 tika 为 apache solr 解析数据
【发布时间】：2014-10-19 20:20:04
【问题描述】：

我已经设法让 apache nutch 索引一个新闻网站并将结果传递给 Apache solr。

作为测试，我正在尝试爬取 Cnn，以提取文章的标题和发布日期。

问题一：

如何从网页中解析数据，提取日期和标题。

我发现这篇文章的插件。它似乎有点过时了，我不确定它是否仍然适用。我也读过 Tika 也可以使用，但大多数教程都很老了。

另一篇SO文章是这个

How to extend Nutch for article crawling。我更喜欢使用 Nutch，只是因为那是我开始的。我真的没有偏好。

任何事情都会有很大帮助。

【问题讨论】：

【解决方案1】：

Norconex HTTP Collector 将与您的文档一起存储它可以找到的所有可能的元数据，没有任何限制。范围从下载页面时获得的 HTTP Header 值到该 HTML 页面中的所有标签。

这对您来说可能是太多的字段。如果是这样，您可以拒绝不想要的那些，或者通过在配置中的 <importer> 部分添加“KeepOnlyTagger”来明确说明您想要保留的那些：

<tagger class="com.norconex.importer.tagger.impl.KeepOnlyTagger"
    fields="title,pubdate,anotherone,etc"/>

【讨论】：