【发布时间】:2014-10-25 01:28:45
【问题描述】:
我们能否将 WARC 文件直接索引到 Solr 而不从 WARC 文件中提取和存储一些中间文件(例如 html 格式)首先在硬盘上?
换句话说,我们可以在不将任何内容存储在硬盘上的情况下索引这些文件吗?
【问题讨论】:
我们能否将 WARC 文件直接索引到 Solr 而不从 WARC 文件中提取和存储一些中间文件(例如 html 格式)首先在硬盘上?
换句话说,我们可以在不将任何内容存储在硬盘上的情况下索引这些文件吗?
【问题讨论】:
您应该在客户端上执行此操作,因为不清楚您希望这些文件使用哪种模式。然后,您可以以流式方式将内容扩展到内存中,如果需要,使用客户端 Tika 对其进行处理,并将您想要的任何文档表示发送到 Solr。
【讨论】:
我们为此开发了Web Archive Discovery 工具包。它使用 Apache Tika 并将其与 WARC/ARC 阅读器和其他一些实用程序相结合,生成合适的记录并将它们发布到 Solr。
如果您想尝试一下,quick start 应该会有所帮助。
【讨论】: