【发布时间】:2018-07-19 07:14:02
【问题描述】:
目前 fastText wiki.en.bin 的 bin 文件约为 8GB。有没有这个大小的一半的版本? bin 文件由模型和从大型 wiki 语料库生成的预训练向量组成。有没有更小的en。使低档机器更容易使用的版本?加载它会占用太多内存。
或者要获得一个较小的 bin 文件以用于 fasttext,我应该用一组较小的并行语料库训练我自己的一组 fasttext 向量吗?
【问题讨论】:
目前 fastText wiki.en.bin 的 bin 文件约为 8GB。有没有这个大小的一半的版本? bin 文件由模型和从大型 wiki 语料库生成的预训练向量组成。有没有更小的en。使低档机器更容易使用的版本?加载它会占用太多内存。
或者要获得一个较小的 bin 文件以用于 fasttext,我应该用一组较小的并行语料库训练我自己的一组 fasttext 向量吗?
【问题讨论】:
你可以使用量化功能
$ ./fasttext quantize -output wiki.en
这将大大减小模型的大小而不会损失太多的准确性。
【讨论】:
目前,原生 Facebook fastText 库仅支持用于分类的监督模型的量化,并且不能压缩无监督模型以嵌入查找训练的模型,例如在维基上。
但是,我创建了一个包compress-fasttext,它能够显着减小无监督 fastText 模型的大小。你可以在this Medium post阅读更多相关信息。
有几个不同大小的模型(10MB 到 200MB)用这个包压缩for English and Russian 和a set of tiny models for 101 other languages。
【讨论】: