【问题标题】:Handling new words in pretrained GenSim Word2Vec在预训练的 GenSim Word2Vec 中处理新词
【发布时间】:2022-01-03 15:52:23
【问题描述】:

我在 gensim 3.6 中使用预训练的 word2vec 嵌入 (word2vec-google-news-300)。
在为一项任务批处理数据时,我需要使用一些 pad 标记来填充句子。
但是,我使用的预训练嵌入的词汇中没有 pad 标记。
我该如何适应pad 令牌?

【问题讨论】:

    标签: python pytorch gensim word2vec embedding


    【解决方案1】:

    如果您绝对需要一个插头向量来实现此填充目的,我会尝试使用零向量(又名原点向量,所有 0.0 维度)或所有模型向量的平均值(这可能是一个非常-原点附近的低幅度矢量)。

    检查哪个在评估您的最终目标时效果更好,然后选择使用它。

    【讨论】:

      猜你喜欢
      • 2014-07-07
      • 1970-01-01
      • 2019-02-07
      • 2019-10-27
      • 2019-09-05
      • 2018-11-27
      • 1970-01-01
      • 2020-06-02
      • 1970-01-01
      相关资源
      最近更新 更多