使用预训练的 Word2Vec 模型进行情感分析

【问题标题】：Using pretrained Word2Vec model for sentiment analysis使用预训练的 Word2Vec 模型进行情感分析
【发布时间】：2018-12-05 20:24:07
【问题描述】：

我正在为推文使用预训练的 Word2Vec 模型来为每个单词创建向量。 https://www.fredericgodin.com/software/。然后我将计算它的平均值并使用分类器来确定情绪。

我的训练数据非常大，预训练的 Word2Vec 模型已经在数百万条推文上进行了训练，维度 = 400。我的问题是为训练数据中的单词提供向量需要很长时间。有没有办法减少构建词向量的时间？

干杯。

【问题讨论】：

【解决方案1】：

不清楚您所说的“太长”是什么意思。

从预先存在的模型中查找单个词向量应该非常快：这是一个简单的在内存中查找单词到数组索引（从字典），然后访问该数组索引。

如果它对您来说很慢，也许您加载的模型比您的可用 RAM 大？在这种情况下，操作可能依赖于速度慢得多的虚拟内存（在速度较慢的磁盘之间分页工作内存）。使用这些类型的模型，在不同位置的访问非常随机，您永远不想这样做。如果发生这种情况，您应该获得更多 RAM 或使用更小的型号。

【讨论】：