【问题标题】:One hot encoding for multi level categorical data-set一种多级分类数据集的热编码
【发布时间】:2018-10-16 08:49:39
【问题描述】:

我的数据集如下:

症状 (X) :: 条件 (Y)
发烧、头痛、失明 :: 瓦格纳综合症
牙痛、发烧、尿甜 :: buri buri 疾病
失明,流鼻血,发烧 :: Taylor 综合征

其中 X 是特征,Y 是我的标签。我想将 X 编码为 one-hot-encoding 矩阵。 panda 的 get_dummies 无法在一列中处理多个值,但如果我将 X 拆分为多列,我将失去将症状编码为同一个单热矩阵的能力

有什么想法吗?

【问题讨论】:

    标签: pandas machine-learning categorical-data one-hot-encoding


    【解决方案1】:

    您可以使用 Sklearn CountVectoriser 做到这一点,每个单词是一列,行是观察。如果将二进制标记设置为 true,则对于每一行,如果存在该单词,则该行|列将表示为 1。将 binary 设置为 False 及其单词在句子中出现的次数。

    【讨论】:

      【解决方案2】:

      没错,您的要求不是单热编码。对于一个热编码,只有一个值为1的特征,其他的都是0。所以你可以考虑将你的X拆分为多个特征,然后在sklearn中使用OrdinalEncoder

      【讨论】:

        猜你喜欢
        • 2019-07-17
        • 2018-12-17
        • 2021-01-16
        • 2023-03-06
        • 2020-10-26
        • 1970-01-01
        • 1970-01-01
        • 2016-05-08
        • 1970-01-01
        相关资源
        最近更新 更多