【问题标题】:Can we index the WARC files directly into Solr?我们可以将 WARC 文件直接索引到 Solr 中吗?
【发布时间】:2014-10-25 01:28:45
【问题描述】:

我们能否将 WARC 文件直接索引到 Solr 而不从 WARC 文件中提取和存储一些中间文件(例如 html 格式)首先在硬盘上?

换句话说,我们可以在不将任何内容存储在硬盘上的情况下索引这些文件吗?

【问题讨论】:

    标签: solr indexing warc


    【解决方案1】:

    您应该在客户端上执行此操作,因为不清楚您希望这些文件使用哪种模式。然后,您可以以流式方式将内容扩展到内存中,如果需要,使用客户端 Tika 对其进行处理,并将您想要的任何文档表示发送到 Solr。

    【讨论】:

      【解决方案2】:

      我们为此开发了Web Archive Discovery 工具包。它使用 Apache Tika 并将其与 WARC/ARC 阅读器和其他一些实用程序相结合,生成合适的记录并将它们发布到 Solr。

      如果您想尝试一下,quick start 应该会有所帮助。

      【讨论】:

        猜你喜欢
        • 2020-04-21
        • 2016-03-22
        • 2014-10-07
        • 1970-01-01
        • 2012-01-25
        • 2016-10-08
        • 2017-05-27
        • 1970-01-01
        • 2023-03-22
        相关资源
        最近更新 更多