【问题标题】:How to do one hot encoding if there is only one distinct value in categorical feature如果分类特征中只有一个不同的值,如何进行一次热编码
【发布时间】:2018-07-17 04:29:42
【问题描述】:

我需要对数据集中的分类变量“星期几”进行一次热编码,但有时数据集只有一个值,例如“星期三”,这种情况下如何进行一次热编码?

【问题讨论】:

  • 如果您包含一个 (small) 数据示例,以及说明您尝试过的内容和原因的代码示例,您将更有可能获得有用的响应' t工作:)

标签: pyspark one-hot-encoding


【解决方案1】:
  1. 如果该列完全填充了仅值 - 为什么需要一个热编码,该列没有提供任何有用的信息,并且在任何机器学习练习中都是多余的

  2. 如果列有 2 个值,Null 和周三,热编码代码有效,并将给出一个二进制列,1/0 其中 0 表示出现频率更高的值(Null/周三)

【讨论】:

  • 因为这是一个测试数据而不是用于训练模型,有时我们只有一天的数据,所以“星期几”没有两个值
猜你喜欢
  • 2022-08-04
  • 2017-01-07
  • 1970-01-01
  • 1970-01-01
  • 2018-11-05
  • 2017-06-08
  • 2020-05-30
  • 2017-07-12
相关资源
最近更新 更多