【问题标题】:word2vec: Order of setences in the training corpusword2vec:训练语料库中的句子顺序
【发布时间】:2016-07-28 06:41:57
【问题描述】:

我有一个关于 word2vec 算法的问题。事实上,我的问题是训练语料库中句子的顺序是否重要。例如,给定两个训练语料:

语料库A: 第 1 句。第 2 句。第 3 句。

语料库B: 第 3 句。第 1 句。第 2 句。

word2vec 的结果会不一样吗?

提前致谢

【问题讨论】:

  • 为什么java在这里是一个标签?

标签: java word2vec


【解决方案1】:

句子顺序会影响从文本语料库中学习到的嵌入,因为大多数 word2vec 实现都是使用 SGD 训练的。

所以回答你的问题 - 是的,word2vec 的结果会有所不同。

如果语料库中的句子顺序对您很重要,我认为 word2vec 不是正确的算法。请记住,由于多种原因,单词的输出可能会有所不同,其中很少 -

  • 向量的随机初始化
  • 负采样
  • 多线程
  • 机器的浮点精度

为了获得更好的结果,我们对训练数据执行多个 epoch,这在您的情况下是不可能的

【讨论】:

    猜你喜欢
    • 2021-10-22
    • 2014-07-15
    • 2021-07-08
    • 2019-09-19
    • 1970-01-01
    • 2016-05-09
    • 1970-01-01
    • 2021-05-07
    • 1970-01-01
    相关资源
    最近更新 更多