减小 fasttext bin 文件的大小答案

【问题标题】：Cutting down the size of a fasttext bin file减小 fasttext bin 文件的大小
【发布时间】：2018-07-19 07:14:02
【问题描述】：

目前 fastText wiki.en.bin 的 bin 文件约为 8GB。有没有这个大小的一半的版本？ bin 文件由模型和从大型 wiki 语料库生成的预训练向量组成。有没有更小的en。使低档机器更容易使用的版本？加载它会占用太多内存。

或者要获得一个较小的 bin 文件以用于 fasttext，我应该用一组较小的并行语料库训练我自己的一组 fasttext 向量吗？

【问题讨论】：

【解决方案1】：

你可以使用量化功能

$ ./fasttext quantize -output wiki.en

这将大大减小模型的大小而不会损失太多的准确性。

【讨论】：

【解决方案2】：

目前，原生 Facebook fastText 库仅支持用于分类的监督模型的量化，并且不能压缩无监督模型以嵌入查找训练的模型，例如在维基上。

但是，我创建了一个包compress-fasttext，它能够显着减小无监督 fastText 模型的大小。你可以在this Medium post阅读更多相关信息。

有几个不同大小的模型（10MB 到 200MB）用这个包压缩for English and Russian 和a set of tiny models for 101 other languages。

【讨论】：