【问题标题】:Using pretrained Word2Vec model for sentiment analysis使用预训练的 Word2Vec 模型进行情感分析
【发布时间】:2018-12-05 20:24:07
【问题描述】:
我正在为推文使用预训练的 Word2Vec 模型来为每个单词创建向量。 https://www.fredericgodin.com/software/。然后我将计算它的平均值并使用分类器来确定情绪。
我的训练数据非常大,预训练的 Word2Vec 模型已经在数百万条推文上进行了训练,维度 = 400。我的问题是为训练数据中的单词提供向量需要很长时间。有没有办法减少构建词向量的时间?
干杯。
【问题讨论】:
标签:
python
twitter
nlp
word2vec
sentiment-analysis
【解决方案1】:
不清楚您所说的“太长”是什么意思。
从预先存在的模型中查找单个词向量应该非常快:这是一个简单的在内存中查找单词到数组索引(从字典),然后访问该数组索引。
如果它对您来说很慢,也许您加载的模型比您的可用 RAM 大?在这种情况下,操作可能依赖于速度慢得多的虚拟内存(在速度较慢的磁盘之间分页工作内存)。使用这些类型的模型,在不同位置的访问非常随机,您永远不想这样做。如果发生这种情况,您应该获得更多 RAM 或使用更小的型号。