【问题标题】:Why word2vec doesn't use regularization?为什么 word2vec 不使用正则化?
【发布时间】:2018-06-24 06:22:45
【问题描述】:

具有大量参数的 ML 模型往往会过拟合(因为它们的方差很大)。在我看来,word2vec 就是这样一种模式。减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型(例如矩阵分解)来说是非常常见的。但是,word2vec 的基本版本没有任何正则化部分。这是有原因的吗?

【问题讨论】:

    标签: machine-learning nlp word2vec embedding regularized


    【解决方案1】:

    这是一个有趣的问题。

    我想说 Word2Vec 中的过度拟合 没有多大意义,因为词嵌入的目标是尽可能精确地匹配词出现分布。 Word2Vec 并非旨在学习训练词汇之外的任何内容,即泛化,而是近似于文本语料库定义的一个分布。从这个意义上说,Word2Vec 实际上是在尝试完全拟合,所以它不能over-fit。

    如果您的词汇量很小,则可以计算共现矩阵并找到嵌入(给定大小)的确切全局最小值,即获得完美拟合,这将定义最佳此固定语言的上下文词模型。

    【讨论】:

    • 是的,但是在训练过程中,我们使用了一个通过附加网络层选择的负标签样本。选择是通过将单词的嵌入作为输入提供给采样层来完成的。因此,如果我没记错的话,嵌入特征的值会影响样本的选择,从而影响模型的结果......
    猜你喜欢
    • 1970-01-01
    • 2020-12-09
    • 2016-11-20
    • 1970-01-01
    • 2019-11-03
    • 2019-04-03
    • 1970-01-01
    • 2016-06-27
    • 2019-08-11
    相关资源
    最近更新 更多