结合词向量和标量特征进行分类答案

【问题标题】：Combining Word vectors and Scalar Features for classification结合词向量和标量特征进行分类
【发布时间】：2017-10-05 17:56:02
【问题描述】：

我正在研究一个短句分类问题，我得到以下信息

输入人的年龄（1-100）人的性别（男性或女性）句子内容

输出标签（内容类型）

为了模拟我正在使用 word2vec 和 tfidf 的句子。我还想将年龄和性别作为特征与句子嵌入一起添加到分类器中。这样做的正确方法是什么？由于嵌入是一个 n 维数组和年龄，性别是标量。我对如何添加它们和可视化数据感到困惑。

【问题讨论】：

【解决方案1】：

作为 n 维向量的词嵌入只是 n 个标量。

因此，例如，如果您有 300 维向量源自词向量，然后是年龄标量 (1-100)，然后是性别标量（可能是 0 或 1），那么您的分类器就有 302 维数据。

请参阅sklearn FeatureUnion transformer，了解将这些不同功能连接在一起的示例。（如果这些不同的特征被缩放以具有更相似的范围/分布，一些分类器可能会表现得更好。）

【讨论】：