【问题标题】:How much disk space does Indexing file takes?索引文件占用多少磁盘空间?
【发布时间】:2014-02-06 11:46:02
【问题描述】:

我正在学习“Lucene in Action”。据说为了搜索文件的内容,您需要对文件进行索引。我对索引文件不太清楚。

  • 索引 1 GB 文档(如 doc、xls、pdb)需要多少文件空间?
  • 索引这些文件需要多长时间?
  • 我们需要每天更新索引吗?

【问题讨论】:

  • Q1、Q2:取决于您索引这些文档的方式和详细信息。 Q3:每当您的文档发生变化时,您都需要更新索引
  • @reto 好的,所以每次文档仪式发生变化时我们都必须运行索引器?每次更新文档时索引的大小会增加吗?
  • 一般不会,你把索引中的信息替换成更新后的值就行了

标签: indexing lucene


【解决方案1】:

Q>索引 1 GB 文档(如 doc、xls、pdb)需要多少文件空间?
A>您的问题太含糊了。文档和电子表格可以从几乎没有变化到数十甚至数百兆字节。它还取决于您要使用的分析器和许多其他因素(例如,仅索引或索引和存储的字段等)。您可以使用this spreadsheet 进行粗略估计,并添加一些额外的空间进行合并。

Q>索引这些文件需要多长时间?
A>同样,这取决于有多少内容。一般来说,indexing is fast。在给定的链接上,它的速度高达 95.8 GB/小时,但我认为从 doc/xsl 转换会增加一些成本(顺便说一句,这与 Lucene 无关)。

Q>我们需要每天更新索引吗?
A>这取决于你。如果您不更新索引,您将获得相同的搜索结果。新的/更新的内容在不更新的情况下进入索引并没有什么神奇的方法。

【讨论】:

  • 谢谢,我是初学者,抱歉这个问题太菜鸟了。
  • 没关系。有时你只需要在回答者的鞋子里感受自己,想想是否有足够或太多的细节会有所帮助:-)
猜你喜欢
  • 2018-07-22
  • 2015-04-05
  • 2015-10-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2023-01-04
  • 2011-04-30
  • 2011-02-10
相关资源
最近更新 更多