为什么 word2vec 不使用正则化？答案

【问题标题】：Why word2vec doesn't use regularization?为什么 word2vec 不使用正则化？
【发布时间】：2018-06-24 06:22:45
【问题描述】：

具有大量参数的 ML 模型往往会过拟合（因为它们的方差很大）。在我看来，word2vec 就是这样一种模式。减少模型方差的方法之一是应用正则化技术，这对于其他嵌入模型（例如矩阵分解）来说是非常常见的。但是，word2vec 的基本版本没有任何正则化部分。这是有原因的吗？

【问题讨论】：

【解决方案1】：

这是一个有趣的问题。

我想说 Word2Vec 中的过度拟合 没有多大意义，因为词嵌入的目标是尽可能精确地匹配词出现分布。 Word2Vec 并非旨在学习训练词汇之外的任何内容，即泛化，而是近似于文本语料库定义的一个分布。从这个意义上说，Word2Vec 实际上是在尝试完全拟合，所以它不能over-fit。

如果您的词汇量很小，则可以计算共现矩阵并找到嵌入（给定大小）的确切全局最小值，即获得完美拟合，这将定义最佳此固定语言的上下文词模型。

【讨论】：

是的，但是在训练过程中，我们使用了一个通过附加网络层选择的负标签样本。选择是通过将单词的嵌入作为输入提供给采样层来完成的。因此，如果我没记错的话，嵌入特征的值会影响样本的选择，从而影响模型的结果......