【问题标题】:Nutch - Lucene - capture the content of the pagesNutch - Lucene - 捕获页面内容
【发布时间】:2010-12-07 06:37:02
【问题描述】:

我已经用 Java Nutch 爬了几页 我还用 Java 中的 Lucene 制作了一个模块,它允许对索引文档执行查询。 我知道我创建了像 url、重量和标题这样的 Nutch 字段。但我对捕捉每一页的内容很感兴趣。我如何使用 Lucene 并知道我已经用 nutch 爬行了?

谢谢

【问题讨论】:

    标签: lucene nutch web-crawler


    【解决方案1】:

    您需要提供有关您想要实现的目标的更多详细信息...因为 Nutch 已经包含一个 Lucene 索引,所以我想知道您为什么想要另一个???? Nutch 有一个 jsp 前端,您可以在其中查看并了解如何查询某些字段内容。实现了一个缓存系统,因此您可以检索页面的缓存数据,但是您必须再次对其进行解析并再次对其进行索引。

    【讨论】:

    • 我已经爬取了不同站点的新闻,使用 java Nutch 我需要检索这些页面的 html 内容,因为我必须创建文档。这些文件中每一个新的内容都要保存。这些文档将用于使用 java api MAPLES 对这些新闻进行分类。我将使用 Lucene 来管理这些文档。谢谢。
    • Nutch 不是一个文档数据库,它确实是面向搜索的,爬行是其中的一部分。在搜索时,您可以按照我的解释检索文档的 html(查看 cached.jsp 以了解如何做到这一点)。但是,您可能希望在 Nutch 内部而不是外部管理您的文档……或者寻找另一个爬虫。
    猜你喜欢
    • 2016-09-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-10-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多