【发布时间】:2016-07-28 06:41:57
【问题描述】:
我有一个关于 word2vec 算法的问题。事实上,我的问题是训练语料库中句子的顺序是否重要。例如,给定两个训练语料:
语料库A: 第 1 句。第 2 句。第 3 句。
语料库B: 第 3 句。第 1 句。第 2 句。
word2vec 的结果会不一样吗?
提前致谢
【问题讨论】:
-
为什么
java在这里是一个标签?
我有一个关于 word2vec 算法的问题。事实上,我的问题是训练语料库中句子的顺序是否重要。例如,给定两个训练语料:
语料库A: 第 1 句。第 2 句。第 3 句。
语料库B: 第 3 句。第 1 句。第 2 句。
word2vec 的结果会不一样吗?
提前致谢
【问题讨论】:
java在这里是一个标签?
句子顺序会影响从文本语料库中学习到的嵌入,因为大多数 word2vec 实现都是使用 SGD 训练的。
所以回答你的问题 - 是的,word2vec 的结果会有所不同。
如果语料库中的句子顺序对您很重要,我认为 word2vec 不是正确的算法。请记住,由于多种原因,单词的输出可能会有所不同,其中很少 -
为了获得更好的结果,我们对训练数据执行多个 epoch,这在您的情况下是不可能的
【讨论】: