【发布时间】:2018-03-17 08:59:11
【问题描述】:
我经常听到与 word2vec 结合使用的术语“负采样”和“子采样”。
在我尝试弄乱 word2vec 之前,我试图回顾一下引用词嵌入的论文,并从头开始。纸迹让我来到这里:
https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf(如果您不信任链接,请在 Google 搜索“向量空间中单词表示的有效估计”。)
并声明:
(除了第一个,我对所有要点都很熟悉)
我发现的关于负采样和二次采样的唯一内容已包含在有关 word2vec 的文章中,而这正是我要避免的。
如果有人能解释这些术语或为我指明正确的方向,将不胜感激:)。
编辑:它自身的子采样标签导致了这个定义:
“二次抽样是一种类似于 bootstrap 的重新抽样过程,其中通过替换抽取的观察结果少于所有观测值(与教科书 bootstrap 方法中使用的原始样本量相比)。要从现有数据中创建样本,请考虑“采样”标签。” --- 这方面的具体例子会很棒。
【问题讨论】:
标签: sampling subsampling