【发布时间】:2014-06-08 03:07:18
【问题描述】:
我无法将语义和词汇信息转换为特征向量。
我知道以下信息
- 词性标记的一部分 - 词性标记器 ex 形容词、动词的输出
- Word Sense - 银行前 Word Sense Disambiguation 的输出 - 金融机构,堆
- 本体信息 - 前哺乳动物,位置
- n-gram - 前好孩子
- 中心词 - 行动的确切词根
我的问题是如何将它们表示为真实值。我是否应该只选择每个特征(POS、sense 等)的出现,即布尔向量,但在 n 的情况下语义信息将丢失-grams(前非常好男孩和好男孩在情感分析的情况下具有不同的语义方向)。
【问题讨论】:
-
通常你会使用布尔向量,即输入特征的 one-hot 编码。
标签: machine-learning nlp nltk svm libsvm