【发布时间】:2020-10-26 06:02:57
【问题描述】:
以下是来自 UCI 数据存储库的数据集。我想建立一个回归模型,将血小板计数作为因变量(y),其余作为特征/输入。
但是,数据集中以数字形式存在的分类变量很少,例如贫血、性别、吸烟和 DEATH_EVENT。
我的问题是:
- 是否应该在构建回归模型之前对这些变量执行“单热编码”?
- 另外,我观察到这些值在不同的范围内,所以我是否应该在应用回归模型之前对数据集进行缩放?
【问题讨论】:
-
从您的数据样本看来,贫血、性和吸烟的值只有 0 和 1。如果是这种情况,您不必执行 one-hot 编码。
标签: python pandas machine-learning regression one-hot-encoding