【问题标题】:what is best solution for setting 'unknown' or 'unk' word vector in word2vec?在 word2vec 中设置“未知”或“未知”词向量的最佳解决方案是什么?
【发布时间】:2018-08-21 01:59:05
【问题描述】:

我通常将 unk'value 设置为随机分布向量或 0 向量。
它的表现还不错,但我认为大多数情况下它也不适合许多任务。
但我很好奇处理“unk”词向量的最佳方法,感谢您提供任何有用的建议。

【问题讨论】:

标签: machine-learning nlp word2vec


【解决方案1】:

如果您正在训练词向量,最常见的策略是完全丢弃低频词。 (这就是 min_count 设置的作用,在 Google 的原始 word2vec.c、Python gensim Word2Vec 等中)

您是否需要记住 something 位于特定位置在序列学习场景中更为常见,而不是简单的 word2vec。 (如果这是您的顾虑,您可以让您的问题更具体地说明您使用词向量的原因和方式。)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-03-07
    • 1970-01-01
    • 1970-01-01
    • 2023-03-21
    相关资源
    最近更新 更多