【问题标题】:Features in SVM based Sentiment Analysis基于 SVM 的情感分析中的特征
【发布时间】:2014-06-08 03:07:18
【问题描述】:

我无法将语义和词汇信息转换为特征向量。

我知道以下信息

  • 词性标记的一部分 - 词性标记器 ex 形容词、动词的输出
  • Word Sense - 银行前 Word Sense Disambiguation 的输出 - 金融机构,堆
  • 本体信息 - 前哺乳动物,位置
  • n-gram - 前好孩子
  • 中心词 - 行动的确切词根

我的问题是如何将它们表示为真实值。我是否应该只选择每个特征(POS、sense 等)的出现,即布尔向量,但在 n 的情况下语义信息将丢失-grams(前非常好男孩和好男孩在情感分析的情况下具有不同的语义方向)。

【问题讨论】:

  • 通常你会使用布尔向量,即输入特征的 one-hot 编码。

标签: machine-learning nlp nltk svm libsvm


【解决方案1】:

没有将标称值转换为实值向量的好方法。最常见的方法是您建议的 - 转换为布尔向量。如果是 n-gram,我不明白你的意思。你的对象是什么?你说你有POS,POS是一个word的特征,而n-gram在single word层面没有意义,而是作为一种表示句子的一部分。你的意思是“它出现的n-gram”吗?它与“前一个单词”(或 n-1 个前一个单词)完全相同,并且您不会丢失任何信息(只是每个“前一个”单词都有 k 个维度,其中 k 是词汇表的大小)。请记住,您的代表将巨大

【讨论】:

  • 我同意我的 n-gram 表示会很大,但是在情感分析的情况下,非常好的男孩和好男孩有不同的语义方向。那么我应该如何表示它们以区分两者
  • 正如我在答案中所说的那样,“前一个单词”功能就足够了,或者“前 n 个单词”(每个都是不同的维度集)。但是,ML 中没有“最佳”答案。这是一个非常复杂的话题,即使是简单的情感分析问题。
猜你喜欢
  • 2013-02-07
  • 2023-02-03
  • 1970-01-01
  • 2023-04-04
  • 1970-01-01
  • 1970-01-01
  • 2012-06-01
  • 2012-03-13
  • 1970-01-01
相关资源
最近更新 更多