一 词汇表征(word presentation)
为什么要用word embeddings
one-hot 可以体现不同词,但是任意两个之间的成绩都为0,不能体现其特殊性,如果将之嵌入到能体现特点的向量中,可以体现例如 apple juice其之间的相似性,以此类推即可。
word embeddingword embeddingword embedding
二 词嵌入使用
用处,根据在训练集中存在的例如 an orange framer 推断出来得到 durian cultivator。 根据数据集中的已经存在的某些词,可以推断出来未知的某些词的意思,或者大概用处。
词嵌入使用方法:
1 从大量文本集中学习词嵌入。 文本集比较大,一般可以从网上下载,有许可。
2 将你的单词 嵌入到300维的词嵌入中。
3 根据情况,如果你的单词量比较大,则需要进行微调,如果不大 ,则不需要。

词嵌入在命名实体识别 文本摘要 文本解析 指代消解 中使用较多。
语言模型 机器翻译使用较少。

人脸识别算法设计的问题就是会有成千上万的不同的人脸,而自然语言处理涉及到的词汇表是固定的。word embeddingword embeddingword embeddingword embeddingword embeddingword embedding
三 词嵌入的特性
词嵌入特性就是可以帮助实现类比推理。
word embeddingword embeddingword embedding
四/嵌入矩阵

嵌入矩阵在本例中为E 为 300X10000的矩阵,E与之前的one-hot 10000X1 矩阵作乘积 得到结果为300X1 ,即为 词嵌入结果 word embeddingword embeddingword embeddingword embedding
五 学习词嵌入
one-hot 矩阵 X E词嵌入矩阵= e 词嵌入矩阵 然后e 根据如果有6个单词 即为 6X300=1800维度的 向量 然后进入一个 MLP +softmax 可以得到下一个单词为啥 反过来也可以通过该过程计算 词嵌如矩阵的E word embeddingword embeddingword embeddingword embeddingword embeddingword embeddingword embedding

相关文章:

  • 2021-04-08
  • 2021-08-25
  • 2021-06-07
  • 2021-08-03
  • 2021-08-06
  • 2021-08-06
  • 2021-08-06
  • 2021-09-15
猜你喜欢
  • 2021-07-24
  • 2022-12-23
  • 2021-06-19
  • 2021-07-31
相关资源
相似解决方案