Sentence2Vec


前言

  本文是对论文A Simple but Tough-to-Beat Baseline for Sentence Embeddings中算法的简要描述,具体细节请参考代码实现

算法介绍

  1. 对一个句子中所有词的词向量进行加权平均,每个词向量的权重可以表示为aa+p(w),其中a为参数,p(w)为词w的频率。
  2. 使用PCA/SVD对向量值进行修改

  算法具体描述如下:


Sentence2Vec模型介绍

  算法输入:
  1. 词向量vw:wVw表示词典中W中的一个词。该向量可以使用GloVe/Word2Vec/PSL等词向量。
  2. 句子集合S
  3. 参数a
  4. 词频p(w):wVp(w)表示词w出现的频率。

  算法输出:
  句子s的向量表示vs:sS

  算法细节以及代码实现参考github


参考文献

  1. A Simple but Tough-to-Beat Baseline for Sentence Embeddings

相关文章:

  • 2021-08-17
  • 2021-12-15
  • 2022-01-15
  • 2022-01-20
  • 2021-09-19
  • 2021-12-15
  • 2022-12-23
猜你喜欢
  • 2022-01-22
  • 2022-01-04
  • 2021-06-14
  • 2021-11-22
  • 2022-01-24
  • 2021-12-05
相关资源
相似解决方案