一种多级分类数据集的热编码答案

【问题标题】：One hot encoding for multi level categorical data-set一种多级分类数据集的热编码
【发布时间】：2018-10-16 08:49:39
【问题描述】：

我的数据集如下：

症状 (X) :: 条件 (Y)
发烧、头痛、失明 :: 瓦格纳综合症
牙痛、发烧、尿甜 :: buri buri 疾病
失明，流鼻血，发烧 :: Taylor 综合征

其中 X 是特征，Y 是我的标签。我想将 X 编码为 one-hot-encoding 矩阵。 panda 的 get_dummies 无法在一列中处理多个值，但如果我将 X 拆分为多列，我将失去将症状编码为同一个单热矩阵的能力

有什么想法吗？

【问题讨论】：

【解决方案1】：

您可以使用 Sklearn CountVectoriser 做到这一点，每个单词是一列，行是观察。如果将二进制标记设置为 true，则对于每一行，如果存在该单词，则该行|列将表示为 1。将 binary 设置为 False 及其单词在句子中出现的次数。

【讨论】：

【解决方案2】：

没错，您的要求不是单热编码。对于一个热编码，只有一个值为1的特征，其他的都是0。所以你可以考虑将你的X拆分为多个特征，然后在sklearn中使用OrdinalEncoder。

【讨论】：