【发布时间】:2021-03-09 16:59:01
【问题描述】:
我有一个具有非序数分类特征的数据集。在训练机器学习模型(线性 SVC)之前转换它们(编码 + 缩放)的最佳方法是什么?
我尝试过的事情:
-
标签编码 - 这有效。但是缩放没有意义,因为功能中的不同类别没有任何特定顺序。
-
One-Hot encoding - 一个特征中有数千个独特的类别,这通过创建数千列使 ML 模型变得复杂。
-
计数编码 - 我的训练-测试拆分没有训练集中某个特征的所有唯一类别,当我对这些特征进行计数编码时,这会在测试集中引入 NaN。
感谢您的帮助!
【问题讨论】:
标签: python encoding scikit-learn