【发布时间】:2025-11-25 21:30:01
【问题描述】:
我正忙于一个涉及 k-最近邻回归的项目。我混合了数值和分类字段。分类值是序数(例如银行名称、帐户类型)。数字类型是,例如工资和年龄。还有一些二进制类型(例如,男性、女性)。
如何将分类值纳入 KNN 分析?
据我所知,不能简单地将每个分类字段映射到数字键(例如银行 1 = 1;银行 2 = 2 等),因此我需要一种更好的方法来使用分类字段。我听说可以使用二进制数 - 这是一种可行的方法吗? 建议将不胜感激。
【问题讨论】:
-
关于将分类数据转换为二进制值:查看arxiv.org/pdf/1210.7070v3.pdf sec的开头。 2 描述这种转换。
-
我正在使用 k-最近邻聚类。我想使用多个参数/维度(年龄、性别、银行、工资、账户类型)在测试点周围生成一个 k = 20 个点的集群。对于账户类型,例如,您有活期账户、支票账户和储蓄账户(分类数据)。然而,工资是连续的(数字的)。如何使用具有连续字段的分类字段进行KNN聚类?
-
你有训练数据吗?听起来您需要进行一些度量学习...
-
我已将整个数据集分为 20% 的测试和 80% 的训练。从未听说过度量学习?我不能为分类数据找到某种数值等价物吗?
-
你确定你说的不是knn分类?
标签: matlab octave classification knn ordinal