【问题标题】:Apache nutch 1.9 databaseApache nutch 1.9 数据库
【发布时间】:2014-09-23 08:52:20
【问题描述】:

我已经用 solr 正确设置了 nutch 1.9。现在我想通过java将这些数据检索到一个程序中,以分析和显示数据。在他们那一刻,我可以用 solr 查询数据。但是,我找不到有关 nutch 使用的底层数据库以及如何检索数据的任何进一步信息。

有什么建议,怎么做?

感谢您的回答!

【问题讨论】:

    标签: database apache solr nutch


    【解决方案1】:

    如果您可以看到您的数据已在 Solr 中建立索引,那么您无需从 Nutch 检索任何内容。您现在需要的是与 Solr 交互的正确 Solr 客户端。客户端将查询 Solr 并解析响应。

    既然你要使用Java,你应该使用SolrJ

    【讨论】:

    • 也可以直接连接nutch db吗?有jdbc连接之类的吗?
    • 如果你想直接连接Nutch,那么你应该使用Nutch 2.x版本。它使用数据库(MySql、HBase、Cassandra)作为存储引擎。因此,您可以查询这些数据库并获取 Nutch 原始数据。但是,为什么要访问原始数据?我在这里龋齿了。
    • 感谢您的回答!我想解析 html 来检索一些特定的字段,我猜那是存储在 nutch 中的,还是我错了?
    • 如果是这种情况,那么您可以尝试编写一个新的 IndexingFilter,Nutch 为索引过滤器提供抓取数据和任何获取的 url 的解析内容。你可以用它来检索你想要的任何东西。我可以知道您要准确检索什么吗?可能已经实现了一个插件。
    • 没有插件可以做到这一点。请阅读here 了解如何编写新插件。看到this plugin 可能会有所帮助
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-08-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多