【问题标题】:Indexing zip files with Lucene使用 Lucene 索引 zip 文件
【发布时间】:2013-01-31 02:10:01
【问题描述】:

是否可以在 lucene 中索引压缩文件夹。如果我解压缩它,内容太大。 如果我只是索引一堆包含文本文件的压缩文件夹, 搜索无法正常工作。 lucene 是否可以在不提取 zip 文件的情况下进行索引。

【问题讨论】:

  • 简短回答:是的。长答案:如果您想要更好的答案,我们需要更多详细信息(例如 what have you tried?)。
  • 索引包含文本文件的文件夹。如果我压缩文件夹并索引它搜索不起作用。但如果解压缩并索引它,搜索工作正常。索引器的输入是包含所有文件夹的文件夹。

标签: java lucene


【解决方案1】:

Lucene 只是一个搜索库,它不可能“知道”所有可能的场景——例如如何索引 XML 文档、word 文件、.zip 内的文件、切尔诺贝利核电站创建的文件等。

但是 Lucene 是做什么来提供 the API 让您将数据挂接到 Lucene 中的。

如果无法解压缩存档文件的内容,您可以编写一个 reads the zip file 类(但不会将其解压缩到磁盘上)并将此数据输入 Lucene。

如果您主要关心的是索引的大小,那么您可以做些什么来减少它。不过有一些提示:

  • 尝试不使用停用词进行索引
  • 不存储字段,只索引它们(提示:Field.Store.NO
  • 始终将所有术语小写以减少术语计数

【讨论】:

  • 我的意思是减小索引的大小。这仍然会增加索引的大小。
  • 我想我不明白你的意思。如果您不想索引 .zip 文件中的数据,您到底面临什么问题?
  • 如果我解压缩并将文件提供给 lucene,索引的大小会很大。我可以做些什么来减小索引的大小吗?
  • 听起来不错。你能帮我解压缩文件而不把它放在磁盘上的代码吗?
  • 您有什么特别的问题? This article 提供了一些关于如何从/向 .zip 读取和写入文件的示例。
猜你喜欢
  • 2011-12-13
  • 1970-01-01
  • 1970-01-01
  • 2016-07-21
  • 2017-09-10
  • 2011-02-05
  • 2013-06-24
  • 2012-09-16
相关资源
最近更新 更多