李宏毅老师课程：Unsupervised Learning - Word Embedding

词嵌入：word embedding

Introduction
Word Embedding
Count based
Prediction based

Sharing Parameters
Training
Various Architectures（各种架构）
Result

Introduction

用vector来表示一个word，最传统的做法是1-of-N Encoding，可以把有同样性质的word进行聚类，划分成多个class，然后用word所属的class来表示这个word，最后把每一个word都投影到高维空间上进行Word Embedding
李宏毅老师课程：Unsupervised Learning - Word Embedding

word embedding是一个无监督的方法(unsupervised)，只要让机器阅读大量的文章，它就可以知道每一个词汇embedding之后的特征向量应该长什么样子
李宏毅老师课程：Unsupervised Learning - Word Embedding
我们的任务就是训练一个neural network，input是词汇，output则是它所对应的word embedding vector

Word Embedding

基本精神就是，每一个词汇的含义都可以根据它的上下文来得到
李宏毅老师课程：Unsupervised Learning - Word Embedding

Count based

假如 $w_i$ 和 $w_j$ 这两个词汇常常在同一篇文章中出现，它们的word vector分别用 $V(w_i)$ 和 $V(w_j)$ 来表示，则 $V(w_i)$ 和 $V(w_j)$ 会比较接近

假设 $N_{i,j}$ 是 $w_i$ 和 $w_j$ 这两个词汇在相同文章里同时出现的次数，我们希望它与 $V(w_i)*V(w_j)$ 的内积越接近越好
李宏毅老师课程：Unsupervised Learning - Word Embedding

Prediction based

基于预测的方法，即可以通过上下文预测中心词，也可以通过中心词预测上下文，中心词即我们要预测的词。
李宏毅老师课程：Unsupervised Learning - Word Embedding
对1-of-N编码进行Word Embedding降维的结果就是神经网络模型第一层hidden layer的输入向量，该向量同时也考虑了上下文词汇的关联，我们可以通过控制第一层hidden layer的大小从而控制目标降维空间的维数
李宏毅老师课程：Unsupervised Learning - Word Embedding