【问题标题】:negative-sampling and subsampling负采样和二次采样
【发布时间】:2018-03-17 08:59:11
【问题描述】:

我经常听到与 word2vec 结合使用的术语“负采样”和“子采样”。

在我尝试弄乱 word2vec 之前,我试图回顾一下引用词嵌入的论文,并从头开始。纸迹让我来到这里:

https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf(如果您不信任链接,请在 Google 搜索“向量空间中单词表示的有效估计”。)

并声明:

(除了第一个,我对所有要点都很熟悉)

我发现的关于负采样和二次采样的唯一内容已包含在有关 word2vec 的文章中,而这正是我要避免的。

如果有人能解释这些术语或为我指明正确的方向,将不胜感激:)。

编辑:它自身的子采样标签导致了这个定义:

“二次抽样是一种类似于 bootstrap 的重新抽样过程,其中通过替换抽取的观察结果少于所有观测值(与教科书 bootstrap 方法中使用的原始样本量相比)。要从现有数据中创建样本,请考虑“采样”标签。” --- 这方面的具体例子会很棒。

【问题讨论】:

    标签: sampling subsampling


    【解决方案1】:

    我终于找到了负采样的东西,如果你学过计算机科学,并且知道所有关于“连接点”又名图的知识,这对于任何想要具体例子。

    https://www.safaribooksonline.com/library/view/mastering-java-for/9781782174271/056ce305-83f2-4efe-993a-b549b7ea3133.xhtml

    (或谷歌:“掌握java数据科学负采样”)

    对于二次抽样,我将把它用于 nlp,所以这是最相关的:

    (取自https://www.safaribooksonline.com/library/view/python-natural-language/9781787121423/f7035ac3-7624-4b80-b464-64ed8a7f252a.xhtml

    【讨论】:

      猜你喜欢
      • 2020-03-05
      • 1970-01-01
      • 2016-05-31
      • 1970-01-01
      • 1970-01-01
      • 2023-01-12
      • 2022-01-06
      • 1970-01-01
      • 2020-07-04
      相关资源
      最近更新 更多