【发布时间】:2010-12-07 06:37:02
【问题描述】:
我已经用 Java Nutch 爬了几页 我还用 Java 中的 Lucene 制作了一个模块,它允许对索引文档执行查询。 我知道我创建了像 url、重量和标题这样的 Nutch 字段。但我对捕捉每一页的内容很感兴趣。我如何使用 Lucene 并知道我已经用 nutch 爬行了?
谢谢
【问题讨论】:
标签: lucene nutch web-crawler
我已经用 Java Nutch 爬了几页 我还用 Java 中的 Lucene 制作了一个模块,它允许对索引文档执行查询。 我知道我创建了像 url、重量和标题这样的 Nutch 字段。但我对捕捉每一页的内容很感兴趣。我如何使用 Lucene 并知道我已经用 nutch 爬行了?
谢谢
【问题讨论】:
标签: lucene nutch web-crawler
您需要提供有关您想要实现的目标的更多详细信息...因为 Nutch 已经包含一个 Lucene 索引,所以我想知道您为什么想要另一个???? Nutch 有一个 jsp 前端,您可以在其中查看并了解如何查询某些字段内容。实现了一个缓存系统,因此您可以检索页面的缓存数据,但是您必须再次对其进行解析并再次对其进行索引。
【讨论】: