【发布时间】:2020-02-08 17:42:22
【问题描述】:
我有一个电影评论数据集,它有两列 Review(Sentences) 和 Sentiment(1 or 0)。
我想创建一个分类模型,使用 word2vec 进行嵌入,使用 CNN 进行分类。
我在 youtube 上寻找教程,但他们所做的只是为每个单词创建向量并向我展示相似的单词。像这样-
model= gensim.models.Word2Vec(cleaned_dataset, min_count = 2, size = 100, window = 5)
words= model.wv.vocab
simalar= model.wv.most_similar("bad")
我已经有了我的因变量(y),这是我的“情绪”列,我所需要的只是我可以传递给我的 CNN 模型的自变量(X)。
在使用 word2vec 之前,我使用了词袋 (BOW) 模型,它生成了一个稀疏矩阵,这是我的独立 (X) 变量。如何使用 word2vec 实现类似的功能?
如果我做错了什么,请纠正我。
【问题讨论】:
-
对不起,如果我没有完全理解您的问题。你想要词向量吗?
-
我有每个单词的向量。我只是不知道如何将这些向量关联起来以获得适当的情绪,即好的(1)或坏的(0)。我必须将整个句子与一种情感联系起来,而不是一个词。
标签: python word2vec sentiment-analysis