在 word2vec 模型中测试时如何嵌入词汇单词？答案

【问题标题】：How to embed out of vocab words at the time of testing in word2vec model?在 word2vec 模型中测试时如何嵌入词汇单词？
【发布时间】：2018-09-04 10:20:06
【问题描述】：

我在 100 000 的词汇量上训练我的 word2vec 模型（skip-gram）。但在测试时，我得到了一些不在词汇中的单词。为了找到他们的嵌入，我尝试了两种方法：

计算词与词汇的最小编辑距离并获取其嵌入。
从单词构造不同的 n-gram 并在词汇中搜索它们。

尽管应用了这些方法，我还是不能完全摆脱单词的问题。

word2vec 是否像 fastText 一样在训练时考虑一个单词的所有 n-gram？

注意 - 在 fastText 中，如果我们的输入词是 quora，那么它会考虑语料库中所有可能的 n-gram。

【问题讨论】：

标签： nlp word2vec word-embedding

【解决方案1】：

我认为在您的案例中，词汇表外的单词非常罕见。其中一种可能性是使用指定符号（或另一个非常罕见的词）的散列作为此类词汇表外词的标记。这需要对此类词进行预处理，但在实际应用中应该足够好。

【讨论】：

你的意思是说如果我的词汇量是 10 万，我应该开始索引 1 到 10 万的词汇，并为稀有词保留索引 0 对吧？
是的，您可以使用 0 索引来捕获所有稀有（非词汇）单词。它是否将成为索引 0 并不重要（任何索引都可以）。
如果您觉得答案有用，请您标记它吗？