【发布时间】:2019-02-22 01:28:45
【问题描述】:
我想了解更多关于 Word2Vec 的信息:
我目前正在尝试构建一个程序来检查句子的嵌入向量。同时,我还构建了一个特征提取,使用 sci-kit learn 从句子中提取引理 0、引理 1、引理 2。
据我了解;
1) 特征提取:引理 0、引理 1、引理 2 2)词嵌入:将向量嵌入到每个字符中(这可以通过使用gensim word2vec来实现(我试过了))
更多解释:
句子 = “我有一支笔”。 Word = 句子的记号,例如“有”
1) 特征提取
"I have a pen" --> lemma 0:I, lemma_1: have, lemma_2:a....... lemma 0:have, lemma_1: a, lemma_2:pen 等等.. 然后当尝试使用 one_hot 提取特征然后将产生:
[[0,0,1],
[1,0,0],
[0,1,0]]
2) 词嵌入(Word2vec)
"I have a pen" ---> "I", "have", "a", "pen"(tokenized) 然后来自 gensim 的 word2vec 将产生矩阵,例如如果使用 window_size = 2 产生:
[[0.31235,0.31345],
[0.31235,0.31345],
[0.31235,0.31345],
[0.31235,0.31345],
[0.31235,0.31345]
]
浮点数和整数用于解释目的,原始数据应根据句子而有所不同。这些只是用来解释的虚拟数据。*
问题:
1) 我对 Word2Vec 的理解正确吗?如果是,特征提取和word2vec有什么区别? 2)我很好奇是否可以使用 word2vec 来获取特征提取嵌入,因为据我了解,word2vec 只是为每个单词而不是特征找到嵌入。
希望有人可以帮助我。
【问题讨论】:
标签: word2vec