什么是Seq2Seq

  • Seq2Seq是一种能够根据给定的序列,生成另一个序列的一种方法。
  • Seq2Seq主要基于RNN结构,有编码器和解码器两部分。
    Seq2Seq学习
  • 主要应用场景:机器翻译、对话系统、图片描述等。

Seq2Seq原理

Seq2Seq学习

  • 编码部分(Encoder)
    • 对输入的词/其他X1,X2,X3...,XTX_1,X_2,X_3...,X_T
      首先对他们进行embedding,得到对应的词向量
    • 将这些词向量输入到Cell中,其中一种Cell为GRUcell(LSTMCell 的一个变种),如下图:
      Seq2Seq学习
    • 故第二个GRUcell的输入为第一个GRUcell输出的隐层向量和第二个词的词向量,同理,最后一个cell的输入为倒数第二个cell的隐层输出和最后一个词的词向量,而每一个cell的输出的隐层向量都有之前一个cell有关,所以最后一个cell输出的结果,也就是编码(encoding)后的向量C,包含了前面所有输入词的信息。
  • 解码部分(Decoder)
    • 对于一个模型的训练来说,必不可少的两个条件是训练样本和目标函数,其中训练样本就是seq_X to seq_Y,而目标函数应该为在输入已知的情况下,输出为正确的概率。训练的目的就是通过改变模型参数使这个概率越来越大。即:argmaxθP(YX)\mathop{\arg\max}_{\theta} P(Y|X)
    • 如图所示,在解码部分,除第一个cell以外,每一个cell的输入都有三部分:上一个cell输出的隐层,上一个cell的输出,以及编码最终的输出向量C。即:ht=f(ht1,yt1,c)h_t = f(h_{t-1},y_{t-1},c)
    • 每次输出的词的概率:P(ytyt1,yt2,...,y1,c)=g(ht,yt1,c)P(y_t|y_{t-1},y_{t-2},...,y_1,c)=g(h_t,y_{t-1},c)
    • 故对一个样本(seq_xi和seq_yi)来说,输出正确的概率是:P(YiXi)=t=1nP(ytyt1,yt2,...,y1,c)=g(ht,yt1,c)P(Y_i|X_i)=\prod_{t=1}^nP(y_t|y_{t-1},y_{t-2},...,y_1,c)=g(h_t,y_{t-1},c)这里n指输出字的个数
    • 那么对整个训练集来说,目标函数变为:P(YX)=i=1NP(YiXi)P(Y|X)=\prod_{i=1}^NP(Y_i|X_i)为防止个别概率较小,加入logP(YX)=logi=1NP(YiXi)P(Y|X)=log\prod_{i=1}^NP(Y_i|X_i)也就是P(YX)=i=1Nlog(P(YiXi))P(Y|X)=\sum_{i=1}^{N}log(P(Y_i|X_i))
    • 那么求解问题就变为:maxθ1NP(YX)=maxθ1Ni=1Nlog(P(YiXi))\mathop{max}_{\theta} \frac{1}{N}P(Y|X)=\mathop{max}_{\theta} \frac{1}{N}\sum_{i=1}^{N}log(P(Y_i|X_i))
    • 习惯目标函数为求最小值,故:minθ1Ni=1Nlog(P(YiXi))\mathop{min}_{\theta}- \frac{1}{N}\sum_{i=1}^{N}log(P(Y_i|X_i))

相关文章:

  • 2021-04-18
  • 2021-05-24
  • 2021-07-23
  • 2021-08-09
  • 2021-11-29
  • 2022-12-23
  • 2021-05-03
  • 2022-01-15
猜你喜欢
  • 2021-07-11
  • 2021-09-15
  • 2021-04-09
  • 2021-05-07
  • 2022-01-09
相关资源
相似解决方案