【发布时间】:2019-09-16 20:11:03
【问题描述】:
如果我有两条电影评论:
"this was a really good movie" and "i did not like this movie at all"
我对它们应用 GloVe 嵌入,我将得到两个向量,其中包含多个单词向量,如下所示:
1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]
基本上,评论中的每个单词都会被转换成一个 300 元素的浮点数数组。由于数组是可变长度的,我不能将它们插入到分类器中。
我想过做某种词袋表示,但现在单词已经变成数字了,我不知道如何实现它。
【问题讨论】:
-
或者您可以尝试使用 SpaCy 文档向量 spacy.io/api/doc#vector 从整个评论创建向量,它们应该具有相同的长度 - 每个 384 项。
标签: machine-learning nlp sentiment-analysis libsvm glove