包含情绪的 GloVe 词嵌入？答案

【问题标题】：GloVe word embeddings containing sentiment?包含情绪的 GloVe 词嵌入？
【发布时间】：2020-12-30 15:59:11
【问题描述】：

我一直在研究使用词嵌入的情感分析。我读过一些论文，其中指出词嵌入忽略了文本中单词的情感信息。一篇论文指出，在语义相似的前 10 个词中，大约 30% 的词具有相反的极性，例如快乐 - 悲伤。

因此，我使用 R 中的 GloVe 算法在我的数据集（亚马逊评论）上计算了词嵌入。然后，我查看了余弦相似度最相似的词，我发现实际上每个词在情感上都是相似的。（例如美丽 - 可爱 - 华丽 - 漂亮 - 好 - 爱）。因此，我想知道这是怎么可能的，因为我从阅读几篇论文中期望相反。我的发现可能是什么原因？

我读过的许多论文中的两篇：

Yu, L. C.、Wang, J.、Lai, K. R. & Zhang, X. (2017)。使用细化词嵌入情绪分析的强度分数。 IEEE/ACM 音频、语音、和语言处理，26(3), 671-681。
Tang, D.、Wei, F.、Yang, N.、Zhou, M.、Liu, T. & Qin, B. (2014)。学习用于 Twitter 情感分类的情感特定词嵌入。计算语言学协会第 52 届年会论文集，1：长论文，1555-1565。

【问题讨论】：

标签： r stanford-nlp sentiment-analysis word embedding

【解决方案1】：

几个假设：当你说你计算了 GLoVe 嵌入时，你的意思是你使用了预训练的 GLoVe。当您说您查看了具有余弦相似度的最相似的单词时，您的意思是说与某个单词最相似的单词/ wrt some word

词嵌入忽略文本的情感信息

以上陈述意味着词嵌入算法（据我所知，其中大部分）不是为捕捉词的情感而设计或制定的。但是，一般来说，词嵌入算法将意义相似的词（基于统计上的接近度和共现）映射到彼此附近。例如，“Woman”和“Girl”将在嵌入的 n 维空间中彼此靠近。但这并不意味着这里会捕获任何与情绪相关的信息。

因此，词：（美丽 - 可爱 - 华丽 - 漂亮 - 好 - 爱），在情感上与某个词相似并不奇怪。另外，请研究一下相似度得分，这样会更清楚。

语义相似的前 10 个词，大约 30% 的词具有相反的极性

在这里，语义性与上下文的相关性较小，而情感与上下文的相关性更高。一个词不能定义情绪。

例子：

杰克：“你的裙子很漂亮，格洛丽亚”！格洛丽亚：“漂亮我的脚！”

在两个句子中，beautiful 都带有完全不同的情感，而对于它们来说，它们将具有相同的嵌入。现在，用（可爱 - 华丽 - 漂亮 - 漂亮）替换美丽，语义事物如其中一篇论文所述是正确的。此外，Word Embeddings 无法捕捉情感，因此其他论文也是如此。

可能发生混淆的地方是认为两个或多个具有相似含义的单词在情感上相似。情感信息可以在句子级别或文档级别而不是在单词级别收集。

【讨论】：