GloVe损失函数的理解

GloVe是一种非常简单快速的训练词向量的算法。与复杂的word2vec相比，其是一个log双线性模型，仅通过一个简单的损失函数就能够得到很好的结果。

(1)J=∑i,jNf(Xi,j)(viTvj+bi+bj−log(Xi,j))2

其中，f是一个权重函数，N为词汇表大小
但是这个损失函数的意义却不是很直观，这里参照一篇博客写了一下对于这个损失函数的分析

思路

Glove首先会通过设置定义的窗口大小，进行统计得到词的共现矩阵。如N×N的矩阵

然后我们需要计算一些条件概率
定义

Xi=∑j=1NXi,j

Pi,k=Xi,kXi

ratioi,j,k=Pi,kPj,k

然后我们分析这里的ratio会发现一些规律

GloVe损失函数的理解
所以我们想到，如果能够通过词向量g()，使之满足

ratioi,j,k=Pi,kPj,k=g(vi,vj,vk)

那么为了使二者尽量想近，对于损失函数，一个直观的想法就是MSE，即

(2)J=∑i,j,kN(Pi,kPj,k−g(vi,vj,vk))2

不过这里的计算复杂度是(vi−vj)Tvk
那么现在我们有

Pi,kPj,k=g(vi,vj,vk)=(vi−vj)Tvk=viTvk−vjTvk

可以看到这里我们和上面的损失函数有点类似了，但是还是缺少一个exp，我们可以加上它看看，即

Pi,kPj,k=exp⁡(viTvk−vjTvk)=exp⁡(viTvk)exp⁡(vjTvk)

可以看到，加上exp之后分子分母的形式就完全一样了，我们可以将其一起考虑，即现在只需要满足

Pi,j=exp(viTvj)

两边取对数，我们的损失函数就能够转化为

(3)J=∑i,jN(log(Pi,j)−viTvj)2

这个损失函数已经更像一些了，但是还是不太一样。这是因为我们前面是存在一点问题的。根据前面我们有

log(Pi,j)=viTvj和log(Pj,i)=vjTvi

但是实际上，上面的式子右边是相等的，但左边并不相等（并且对于这个问题来说，我们可以想到target和context其实是可以互换的，所以存在对称），即原有的对称性不满足了。我们需要进一步处理一下。我们将上面(3)的中的条件概率log(Pi,j)展开，得到

log(Pi,j)=log(Xi,j)−log(Xi)=viTvj

这里的bi变为

log(Xi,j)=viTvj+bi+bj

这样代价函数就变成了

J=∑i,jN(viTvj+bi+bj−log(Xi,j))2

然后加上词频越高权重越大（共现次数很少的实际上很可能是异常值，并且共现次数少的一般来说含的信息也少）

(4)J=∑i,jNf(Xi,j)(viTvj+bi+bj−log(Xi,j))2

权重函数

f(x)={(x/xmax)0.75,if x<xmax1,if x>=xmax

GloVe损失函数的理解

Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1532-1543.
https://blog.csdn.net/codertc/article/details/73864097