【问题标题】:How to embed out of vocab words at the time of testing in word2vec model?在 word2vec 模型中测试时如何嵌入词汇单词?
【发布时间】:2018-09-04 10:20:06
【问题描述】:

我在 100 000 的词汇量上训练我的 word2vec 模型(skip-gram)。但在测试时,我得到了一些不在词汇中的单词。为了找到他们的嵌入,我尝试了两种方法:

  1. 计算词与词汇的最小编辑距离并获取其嵌入。

  2. 从单词构造不同的 n-gram 并在词汇中搜索它们。

尽管应用了这些方法,我还是不能完全摆脱单词的问题。

word2vec 是否像 fastText 一样在训练时考虑一个单词的所有 n-gram?

注意 - 在 fastText 中,如果我们的输入词是 quora,那么它会考虑语料库中所有可能的 n-gram。

【问题讨论】:

    标签: nlp word2vec word-embedding


    【解决方案1】:

    我认为在您的案例中,词汇表外的单词非常罕见。其中一种可能性是使用指定符号(或另一个非常罕见的词)的散列作为此类词汇表外词的标记。这需要对此类词进行预处理,但在实际应用中应该足够好。

    【讨论】:

    • 你的意思是说如果我的词汇量是 10 万,我应该开始索引 1 到 10 万的词汇,并为稀有词保留索引 0 对吧?
    • 是的,您可以使用 0 索引来捕获所有稀有(非词汇)单词。它是否将成为索引 0 并不重要(任何索引都可以)。
    • 如果您觉得答案有用,请您标记它吗?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-07-07
    • 2019-09-25
    • 2020-02-28
    • 1970-01-01
    • 1970-01-01
    • 2023-01-27
    • 2021-04-18
    相关资源
    最近更新 更多