【发布时间】:2013-02-24 01:24:51
【问题描述】:
我一直在对基于压缩的文本分类进行一些研究,并试图找出一种方法来存储由编码器(在训练文件上)构建的字典,以便在测试中“静态”运行文件?这完全可以使用 UNIX 的 gzip 实用程序吗?
例如,我一直在使用 sport.txt 和 atheism.txt 的 2 个“类”文件,因此我想对这两个文件运行压缩并存储它们使用的字典。接下来我要获取一个测试文件(未标记,可能是无神论或运动),并通过使用此 test.txt 上的预构建字典,我可以分析它在该字典/模型下的压缩程度。
谢谢
【问题讨论】:
标签: algorithm unix dictionary compression classification