【发布时间】:2018-08-21 01:59:05
【问题描述】:
我通常将 unk'value 设置为随机分布向量或 0 向量。
它的表现还不错,但我认为大多数情况下它也不适合许多任务。
但我很好奇处理“unk”词向量的最佳方法,感谢您提供任何有用的建议。
【问题讨论】:
标签: machine-learning nlp word2vec
我通常将 unk'value 设置为随机分布向量或 0 向量。
它的表现还不错,但我认为大多数情况下它也不适合许多任务。
但我很好奇处理“unk”词向量的最佳方法,感谢您提供任何有用的建议。
【问题讨论】:
标签: machine-learning nlp word2vec
如果您正在训练词向量,最常见的策略是完全丢弃低频词。 (这就是 min_count 设置的作用,在 Google 的原始 word2vec.c、Python gensim Word2Vec 等中)
您是否需要记住 something 位于特定位置在序列学习场景中更为常见,而不是简单的 word2vec。 (如果这是您的顾虑,您可以让您的问题更具体地说明您使用词向量的原因和方式。)
【讨论】: