txNLP 262-282

 one-hot中只有一个非零向量,相对集中。而对于分布式表示,向量中有大量的非零向量,相对分散,把词的信息分布到各个向量中去了。这一点跟并行计算里的分布式并行相像。

 Global Generation of Distributed Representation

txNLP 262-282

 

 txNLP 262-282

 txNLP 262-282

 txNLP 262-282

 

 在cs224n中Richard Socher说他们实验后发现是U+V的效果比较好

txNLP 262-282

 txNLP 262-282

 D=1以上下文方式出现在语料库中,D=0没有以上下文方式出现在语料库中。

txNLP 262-282

 

 

负样本过大,需要抽样。

txNLP 262-282

 txNLP 262-282

 txNLP 262-282

 txNLP 262-282

 

txNLP 262-282

txNLP 262-282

 txNLP 262-282

 

txNLP 262-282

 

txNLP 262-282 

txNLP 262-282

 txNLP 262-282

 

txNLP 262-282

 txNLP 262-282

 txNLP 262-282

 txNLP 262-282

 

相关文章: