【发布时间】:2018-06-24 06:22:45
【问题描述】:
具有大量参数的 ML 模型往往会过拟合(因为它们的方差很大)。在我看来,word2vec 就是这样一种模式。减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型(例如矩阵分解)来说是非常常见的。但是,word2vec 的基本版本没有任何正则化部分。这是有原因的吗?
【问题讨论】:
标签: machine-learning nlp word2vec embedding regularized
具有大量参数的 ML 模型往往会过拟合(因为它们的方差很大)。在我看来,word2vec 就是这样一种模式。减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型(例如矩阵分解)来说是非常常见的。但是,word2vec 的基本版本没有任何正则化部分。这是有原因的吗?
【问题讨论】:
标签: machine-learning nlp word2vec embedding regularized
这是一个有趣的问题。
我想说 Word2Vec 中的过度拟合 没有多大意义,因为词嵌入的目标是尽可能精确地匹配词出现分布。 Word2Vec 并非旨在学习训练词汇之外的任何内容,即泛化,而是近似于文本语料库定义的一个分布。从这个意义上说,Word2Vec 实际上是在尝试完全拟合,所以它不能over-fit。
如果您的词汇量很小,则可以计算共现矩阵并找到嵌入(给定大小)的确切全局最小值,即获得完美拟合,这将定义最佳此固定语言的上下文词模型。
【讨论】: