【发布时间】:2022-01-03 15:52:23
【问题描述】:
我在 gensim 3.6 中使用预训练的 word2vec 嵌入 (word2vec-google-news-300)。
在为一项任务批处理数据时,我需要使用一些 pad 标记来填充句子。
但是,我使用的预训练嵌入的词汇中没有 pad 标记。
我该如何适应pad 令牌?
【问题讨论】:
标签: python pytorch gensim word2vec embedding
我在 gensim 3.6 中使用预训练的 word2vec 嵌入 (word2vec-google-news-300)。
在为一项任务批处理数据时,我需要使用一些 pad 标记来填充句子。
但是,我使用的预训练嵌入的词汇中没有 pad 标记。
我该如何适应pad 令牌?
【问题讨论】:
标签: python pytorch gensim word2vec embedding
如果您绝对需要一个插头向量来实现此填充目的,我会尝试使用零向量(又名原点向量,所有 0.0 维度)或所有模型向量的平均值(这可能是一个非常-原点附近的低幅度矢量)。
检查哪个在评估您的最终目标时效果更好,然后选择使用它。
【讨论】: