Fasttext 量化无监督模型答案

【问题标题】：Fasttext Quantize Unsupervised modelFasttext 量化无监督模型
【发布时间】：2020-08-11 14:05:33
【问题描述】：

我正在尝试使用此命令在 fasttext 中量化无监督模型。

model.quantize(input=train_data, qnorm=True, retrain=True, cutoff=200000)

它抛出了一个错误，它只支持受监督的模型。

有没有其他方法可以量化无监督模型？

【问题讨论】：

另见github.com/facebookresearch/fastText/issues/…

标签： python compression fasttext

【解决方案1】：

paper which introduced the FastText team's quantization strategy 仅评估分类模型，并使用了一些可能仅对标记的训练文档有意义的修剪步骤。（不过，我不认为-quantize 的论点包括原始训练文档，因此不确定论文中描述的修剪技术是否已完全实现。）

虽然一些压缩步骤可以应用于无监督密集向量，但我还没有看到提供该功能的库，但实现/添加它可能是一件好事。

但是，FastText 工作完成的分类可能是这些技术的“最佳选择”，并且应用于其他词向量会对下游使用产生更大的负面影响。因此，该技术的扩展应该伴随着一些验证其价值的实验。

【讨论】：

【解决方案2】：

虽然 Facebook 的原始 fastText 包不支持无监督模型的压缩，但我编写了包 compress-fasttext，它将修剪和量化应用于无监督 fastText 模型（以 gensim 格式），以将其大小减少 10 到 100 倍。

This post on Medium 提供了我的方法背后的一些示例和解释。

【讨论】：