【发布时间】:2014-10-19 20:20:04
【问题描述】:
我已经设法让 apache nutch 索引一个新闻网站并将结果传递给 Apache solr。
使用本教程 https://github.com/renepickhardt/metalcon/wiki/simpleNutchSolrSetup 唯一的区别是我决定改用 Cassandra。
作为测试,我正在尝试爬取 Cnn,以提取文章的标题和发布日期。
问题一:
如何从网页中解析数据,提取日期和标题。
我发现这篇文章的插件。它似乎有点过时了,我不确定它是否仍然适用。我也读过 Tika 也可以使用,但大多数教程都很老了。
http://www.ryanpfister.com/2009/04/how-to-sort-by-date-with-nutch/
另一篇SO文章是这个
How to extend Nutch for article crawling。我更喜欢使用 Nutch,只是因为那是我开始的。我真的没有偏好。
任何事情都会有很大帮助。
【问题讨论】:
-
您的主要问题是否只是获取特定的 HTML 元数据字段(如“pubdate”和“title”)?
-
是的,我也想在 solr 中索引它们。
-
你的意思是 nutch 只索引一些字段,但标题、日期字段不会索引到 solr 对吗?
标签: solr web-crawler nutch