Nutch - Lucene - 捕获页面内容答案

【问题标题】：Nutch - Lucene - capture the content of the pagesNutch - Lucene - 捕获页面内容
【发布时间】：2010-12-07 06:37:02
【问题描述】：

我已经用 Java Nutch 爬了几页我还用 Java 中的 Lucene 制作了一个模块，它允许对索引文档执行查询。我知道我创建了像 url、重量和标题这样的 Nutch 字段。但我对捕捉每一页的内容很感兴趣。我如何使用 Lucene 并知道我已经用 nutch 爬行了？

谢谢

【问题讨论】：

标签： lucene nutch web-crawler

【解决方案1】：

您需要提供有关您想要实现的目标的更多详细信息...因为 Nutch 已经包含一个 Lucene 索引，所以我想知道您为什么想要另一个？？？？ Nutch 有一个 jsp 前端，您可以在其中查看并了解如何查询某些字段内容。实现了一个缓存系统，因此您可以检索页面的缓存数据，但是您必须再次对其进行解析并再次对其进行索引。

【讨论】：

我已经爬取了不同站点的新闻，使用 java Nutch 我需要检索这些页面的 html 内容，因为我必须创建文档。这些文件中每一个新的内容都要保存。这些文档将用于使用 java api MAPLES 对这些新闻进行分类。我将使用 Lucene 来管理这些文档。谢谢。
Nutch 不是一个文档数据库，它确实是面向搜索的，爬行是其中的一部分。在搜索时，您可以按照我的解释检索文档的 html（查看 cached.jsp 以了解如何做到这一点）。但是，您可能希望在 Nutch 内部而不是外部管理您的文档……或者寻找另一个爬虫。