【问题标题】:Reduce the size of an index format : text减小索引格式的大小:文本
【发布时间】:2017-03-21 01:57:59
【问题描述】:

你好,我有一个倒排索引格式的文本,格式如下:

term document1 , document2 poids1 poids2

我想减小他的大小,例如,我已经减小了文档的名称 文档 1 将变为 1 .. 权重例如 2.5565465454 的权重将是 2.55,例如在 java 中

BigDecimal bd = new BigDecimal(w);
bd = bd.setScale(2, RoundingMode.HALF_UP);

如果您有任何想法,请向我建议减少尺寸,我不需要代码,只是一些想法

【问题讨论】:

  • 为什么要减小文本版本的大小?对于文本,通过 gzip 等标准压缩实用程序传递它...否则,如果您想减小非文本反转文件结构本身的大小,请使用索引修剪...您可以使用以下命令从发布列表中删除条目权重太低...
  • 谢谢你,但保留稀有词的想法,所以我不知道索引修剪是否对我有帮助

标签: java file text indexing information-retrieval


【解决方案1】:

您给出的示例是一个文本文件,该文件可以从现有索引的文本转储中获得(请记住,索引本质上是作为二进制文件组织的,即非文本文件)。

在这方面,修剪长文档名称并没有多大用处,例如“Document-1”到“D1”,因为在典型的实现中,例如Lucene,文档和术语由整数 ID 而非名称来标识。

此外,修剪尾随小数是没有意义的,例如“0.25555”到“0.25”,因为它们会占用相同数量的存储空间(通常为 64 位)。

实际上可能对您有所帮助的是 Apache Lucene 的修剪实用程序,它记录在 here。该软件包支持通过各种不同的启发式算法进行索引修剪,其中最简单的是基于 tf 和 tf-idf 的修剪,从术语 的发布列表中删除条目 (t, d) t 低于截止值 tf (t,d)tf (t, d) x idf(t) 值。

【讨论】:

    猜你喜欢
    • 2011-05-28
    • 2021-10-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-11-12
    • 1970-01-01
    • 2015-11-07
    相关资源
    最近更新 更多