【问题标题】:Fasttext Quantize Unsupervised modelFasttext 量化无监督模型
【发布时间】:2020-08-11 14:05:33
【问题描述】:

我正在尝试使用此命令在 fasttext 中量化无监督模型。

model.quantize(input=train_data, qnorm=True, retrain=True, cutoff=200000)

它抛出了一个错误,它只支持受监督的模型。

有没有其他方法可以量化无监督模型?

【问题讨论】:

标签: python compression fasttext


【解决方案1】:

paper which introduced the FastText team's quantization strategy 仅评估分类模型,并使用了一些可能仅对标记的训练文档有意义的修剪步骤。 (不过,我不认为-quantize 的论点包括原始训练文档,因此不确定论文中描述的修剪技术是否已完全实现。)

虽然一些压缩步骤可以应用于无监督密集向量,但我还没有看到提供该功能的库,但实现/添加它可能是一件好事。

但是,FastText 工作完成的分类可能是这些技术的“最佳选择”,并且应用于其他词向量会对下游使用产生更大的负面影响。因此,该技术的扩展应该伴随着一些验证其价值的实验。

【讨论】:

    【解决方案2】:

    虽然 Facebook 的原始 fastText 包不支持无监督模型的压缩,但我编写了包 compress-fasttext,它将修剪和量化应用于无监督 fastText 模型(以 gensim 格式),以将其大小减少 10 到 100 倍。

    This post on Medium 提供了我的方法背后的一些示例和解释。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-09-28
      • 2020-12-04
      • 2020-01-14
      • 2020-09-21
      • 2017-09-04
      • 2017-11-02
      • 1970-01-01
      • 2013-03-24
      相关资源
      最近更新 更多