【发布时间】:2018-09-04 10:20:06
【问题描述】:
我在 100 000 的词汇量上训练我的 word2vec 模型(skip-gram)。但在测试时,我得到了一些不在词汇中的单词。为了找到他们的嵌入,我尝试了两种方法:
计算词与词汇的最小编辑距离并获取其嵌入。
从单词构造不同的 n-gram 并在词汇中搜索它们。
尽管应用了这些方法,我还是不能完全摆脱单词的问题。
word2vec 是否像 fastText 一样在训练时考虑一个单词的所有 n-gram?
注意 - 在 fastText 中,如果我们的输入词是 quora,那么它会考虑语料库中所有可能的 n-gram。
【问题讨论】:
标签: nlp word2vec word-embedding