【发布时间】:2026-01-03 12:30:01
【问题描述】:
比如说,一个数据集有像长度和宽度这样的列,可以是浮点数,它也可以有一些二进制元素(是/否)或离散数字(类别转换为数字)。简单地使用所有这些作为特性而不用担心格式(或者更像特性的性质)是明智的吗?在进行归一化时,我们可以像连续数一样对离散数进行归一化吗?我真的对处理多种格式感到困惑.....
【问题讨论】:
标签: machine-learning feature-selection
比如说,一个数据集有像长度和宽度这样的列,可以是浮点数,它也可以有一些二进制元素(是/否)或离散数字(类别转换为数字)。简单地使用所有这些作为特性而不用担心格式(或者更像特性的性质)是明智的吗?在进行归一化时,我们可以像连续数一样对离散数进行归一化吗?我真的对处理多种格式感到困惑.....
【问题讨论】:
标签: machine-learning feature-selection
对于分类和实值特征的混合,我的第一选择是使用一些基于树的方法(RandomForest 或 Gradient Boosting Machine),第二个方法是人工神经网络。
此外,处理因子(分类变量)的极好的方法是将它们转换为一组布尔变量。例如,如果您有一个具有五个级别(1、2、3、4 和 5)的因子,那么一个好的方法是将其转换为 5 个特征,其中 1 在一列中代表一个级别。
【讨论】: