【问题标题】:Combining Word vectors and Scalar Features for classification结合词向量和标量特征进行分类
【发布时间】:2017-10-05 17:56:02
【问题描述】:

我正在研究一个短句分类问题,我得到以下信息

输入 人的年龄(1-100) 人的性别(男性或女性) 句子内容

输出 标签(内容类型)

为了模拟我正在使用 word2vec 和 tfidf 的句子。我还想将年龄和性别作为特征与句子嵌入一起添加到分类器中。这样做的正确方法是什么?由于嵌入是一个 n 维数组和年龄,性别是标量。我对如何添加它们和可视化数据感到困惑。

【问题讨论】:

  • 运气好能找到解决方案吗?我正在处理类似的问题。

标签: machine-learning tensorflow word2vec text-classification feature-selection


【解决方案1】:

作为 n 维向量的词嵌入只是 n 个标量。

因此,例如,如果您有 300 维向量源自词向量,然后是年龄标量 (1-100),然后是性别标量(可能是 0 或 1),那么您的分类器就有 302 维数据。

请参阅sklearn FeatureUnion transformer,了解将这些不同功能连接在一起的示例。 (如果这些不同的特征被缩放以具有更相似的范围/分布,一些分类器可能会表现得更好。)

【讨论】:

    猜你喜欢
    • 2021-08-18
    • 2012-07-14
    • 2019-08-01
    • 2015-03-20
    • 1970-01-01
    • 2014-07-14
    • 2018-03-03
    • 2017-02-21
    • 1970-01-01
    相关资源
    最近更新 更多