基于 SVM 的情感分析中的特征答案

【问题标题】：Features in SVM based Sentiment Analysis基于 SVM 的情感分析中的特征
【发布时间】：2014-06-08 03:07:18
【问题描述】：

我无法将语义和词汇信息转换为特征向量。

我知道以下信息

词性标记的一部分 - 词性标记器 ex 形容词、动词的输出
Word Sense - 银行前 Word Sense Disambiguation 的输出 - 金融机构，堆
本体信息 - 前哺乳动物，位置
n-gram - 前好孩子
中心词 - 行动的确切词根

我的问题是如何将它们表示为真实值。我是否应该只选择每个特征（POS、sense 等）的出现，即布尔向量，但在 n 的情况下语义信息将丢失-grams（前非常好男孩和好男孩在情感分析的情况下具有不同的语义方向）。

【问题讨论】：

通常你会使用布尔向量，即输入特征的 one-hot 编码。

标签： machine-learning nlp nltk svm libsvm

【解决方案1】：

没有将标称值转换为实值向量的好方法。最常见的方法是您建议的 - 转换为布尔向量。如果是 n-gram，我不明白你的意思。你的对象是什么？你说你有POS，POS是一个word的特征，而n-gram在single word层面没有意义，而是作为一种表示句子的一部分。你的意思是“它出现的n-gram”吗？它与“前一个单词”（或 n-1 个前一个单词）完全相同，并且您不会丢失任何信息（只是每个“前一个”单词都有 k 个维度，其中 k 是词汇表的大小）。请记住，您的代表将巨大。

【讨论】：

我同意我的 n-gram 表示会很大，但是在情感分析的情况下，非常好的男孩和好男孩有不同的语义方向。那么我应该如何表示它们以区分两者
正如我在答案中所说的那样，“前一个单词”功能就足够了，或者“前 n 个单词”（每个都是不同的维度集）。但是，ML 中没有“最佳”答案。这是一个非常复杂的话题，即使是简单的情感分析问题。