【发布时间】:2020-08-11 14:05:33
【问题描述】:
我正在尝试使用此命令在 fasttext 中量化无监督模型。
model.quantize(input=train_data, qnorm=True, retrain=True, cutoff=200000)
它抛出了一个错误,它只支持受监督的模型。
有没有其他方法可以量化无监督模型?
【问题讨论】:
标签: python compression fasttext
我正在尝试使用此命令在 fasttext 中量化无监督模型。
model.quantize(input=train_data, qnorm=True, retrain=True, cutoff=200000)
它抛出了一个错误,它只支持受监督的模型。
有没有其他方法可以量化无监督模型?
【问题讨论】:
标签: python compression fasttext
paper which introduced the FastText team's quantization strategy 仅评估分类模型,并使用了一些可能仅对标记的训练文档有意义的修剪步骤。 (不过,我不认为-quantize 的论点包括原始训练文档,因此不确定论文中描述的修剪技术是否已完全实现。)
虽然一些压缩步骤可以应用于无监督密集向量,但我还没有看到提供该功能的库,但实现/添加它可能是一件好事。
但是,FastText 工作完成的分类可能是这些技术的“最佳选择”,并且应用于其他词向量会对下游使用产生更大的负面影响。因此,该技术的扩展应该伴随着一些验证其价值的实验。
【讨论】:
虽然 Facebook 的原始 fastText 包不支持无监督模型的压缩,但我编写了包 compress-fasttext,它将修剪和量化应用于无监督 fastText 模型(以 gensim 格式),以将其大小减少 10 到 100 倍。
This post on Medium 提供了我的方法背后的一些示例和解释。
【讨论】: