【问题标题】:Cutting down the size of a fasttext bin file减小 fasttext bin 文件的大小
【发布时间】:2018-07-19 07:14:02
【问题描述】:

目前 fastText wiki.en.bin 的 bin 文件约为 8GB。有没有这个大小的一半的版本? bin 文件由模型和从大型 wiki 语料库生成的预训练向量组成。有没有更小的en。使低档机器更容易使用的版本?加载它会占用太多内存。

或者要获得一个较小的 bin 文件以用于 fasttext,我应该用一组较小的并行语料库训练我自己的一组 fasttext 向量吗?

【问题讨论】:

    标签: deep-learning fasttext


    【解决方案1】:

    你可以使用量化功能

    $ ./fasttext quantize -output wiki.en 
    

    这将大大减小模型的大小而不会损失太多的准确性。

    【讨论】:

      【解决方案2】:

      目前,原生 Facebook fastText 库仅支持用于分类的监督模型的量化,并且不能压缩无监督模型以嵌入查找训练的模型,例如在维基上。

      但是,我创建了一个包compress-fasttext,它能够显着减小无监督 fastText 模型的大小。你可以在this Medium post阅读更多相关信息。

      有几个不同大小的模型(10MB 到 200MB)用这个包压缩for English and Russiana set of tiny models for 101 other languages

      【讨论】:

        猜你喜欢
        • 2020-03-14
        • 2011-12-27
        • 2010-10-08
        • 2012-05-10
        • 2019-03-03
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多