【发布时间】:2023-10-21 23:20:01
【问题描述】:
我现在尝试使用 word2vec,通过 NCE(噪声对比估计)而不是传统的负采样方法来估计 skipgram 嵌入,就像最近的一篇论文所做的那样 (https://asistdl.onlinelibrary.wiley.com/doi/full/10.1002/asi.24421?casa_token=uCHp2XQZVV8AAAAA%3Ac7ETNVxnpqe7u9nhLzX7pIDjw5Fuq560ihU3K5tYVDcgQEOJGgXEakRudGwEQaomXnQPVRulw8gF9XeO)。论文有一个复制的GitHub仓库(https://github.com/sandeepsoni/semantic-progressiveness),主要依赖gensim实现word2vec,但是仓库组织不好,乱七八糟,所以我不知道作者是如何通过gensim的word2vec实现NCE估计的.
作者只是使用了 gensim 的 word2vec 作为默认状态,没有包含任何选项,所以我的问题是在 Skip-gram 嵌入下 gensim 的 word2vec 的默认估计方法是什么。新华网?根据您的手册,它只是说有一个负采样选项,如果设置为 0,则不使用负采样。但是那么使用什么估计方法呢? 负(int,可选)——如果 > 0,将使用负采样,负的 int 指定应该绘制多少“噪声词”(通常在 5-20 之间)。如果设置为 0,则不使用负采样。
在此先感谢您,并期待尽快收到您的来信!
【问题讨论】:
标签: python nlp gensim word2vec