通过词汇分析确定文本短语的“情绪”答案

【问题标题】：Determining "Mood" of Textual Phrases through Lexical Analysis通过词汇分析确定文本短语的“情绪”
【发布时间】：2009-06-15 15:46:43
【问题描述】：

我希望将分数（正面、负面或中性）应用于短文本短语。没有解析出表情符号并根据它们的用法做出假设，我不确定还有什么可以尝试的。谁能提供对这个问题进行更词汇分析的示例、研究论文、文章等。

我认为副词的使用、标点符号的误用/重复、拼写/语法错误等都可能是作者情绪的体面指标，几乎是二元意义上的（好或坏）。

【问题讨论】：

有一个类似的问题：stackoverflow.com/questions/933212/…
在电子邮件/短信风格的对话中，即使是人类也难以确定情绪/语气。除非您正在谈论解析使用关键词的小说（例如：“喊”和“愤怒”），否则您的工作已经为您完成了。

标签： parsing text lexer

【解决方案1】：

这听起来像是一个非常清晰的二元分类任务，您可以在其中将问题简化为正面或负面，然后通过将概率质量设置为中性来做出最具熵或尚未达到确定性阈值的决策.

您最大的障碍将是获取随机机器学习方法的训练数据。您可以使用现成的最大熵模型（例如 Toolkit for Advanced Discriminative Modeling 或 Mallet）轻松地做到这一点。您描述的功能只需格式化为这些模型使用的输入即可。

为了获得训练数据，您可以像亚马逊的 Mechanical Turk 那样进行某种付费众包，也可以自己动手，也许在朋友的帮助下。为此，您需要很多数据。您可以通过主动学习、集成或增强等方法在数据匮乏的情况下提高模型的预测强度，但重要的是尽可能最好地针对真实世界的数据进行测试，并选择最适合的方法实际应用。

如果您正在寻找这方面的论文，您需要查看 Google Scholar 中的“情感分析”一词。 The Association for Computational Linguistics 有很多来自会议和期刊的免费和有用的论文，它们从语言和算法的角度解决了这个问题。我也会浏览他们的档案。祝你好运！

【讨论】：

【解决方案2】：

嗯，latent semantic analysis（也有paper）似乎是与您所说的内容最接近的成熟调查领域。它不那么“以价值为导向”，更侧重于较大的文档，但仍可能与您的问题相关。

【讨论】：

【解决方案3】：

这听起来是一个非常有趣的想法 - 我很想看看它的想法。

我会说标点符号是您可以使用的一种指标...

? - 一个问题
!?!?（或一些变体）难以置信
！带有愚蠢、白痴等短语...... - 愤怒
... - 犹豫，讽刺

您也可以尝试使用常见的首字母缩略词，例如...

LOL - 大笑（正面）
WTF，OMG - 难以置信，震惊
IMO - 思考，解释

这显然是您想做的一件相当复杂的事情，但听起来很有趣。

【讨论】：