【发布时间】:2017-03-21 01:57:59
【问题描述】:
你好,我有一个倒排索引格式的文本,格式如下:
term document1 , document2 poids1 poids2
我想减小他的大小,例如,我已经减小了文档的名称 文档 1 将变为 1 .. 权重例如 2.5565465454 的权重将是 2.55,例如在 java 中
BigDecimal bd = new BigDecimal(w);
bd = bd.setScale(2, RoundingMode.HALF_UP);
如果您有任何想法,请向我建议减少尺寸,我不需要代码,只是一些想法
【问题讨论】:
-
为什么要减小文本版本的大小?对于文本,通过 gzip 等标准压缩实用程序传递它...否则,如果您想减小非文本反转文件结构本身的大小,请使用索引修剪...您可以使用以下命令从发布列表中删除条目权重太低...
-
谢谢你,但保留稀有词的想法,所以我不知道索引修剪是否对我有帮助
标签: java file text indexing information-retrieval