【发布时间】:2020-03-15 18:29:49
【问题描述】:
我有这样的数据集:
profile category target
0 1 [5, 10] 1
1 2 [1] 0
2 3 [23, 5000] 1
3 4 [700, 4500] 0
如何处理category功能,此表可能还有其他附加功能。一种热编码会导致占用太多空间。因为行数约为 1000 万。任何建议都会有所帮助。
【问题讨论】:
-
问题是,类别代表什么?这是否意味着配置文件 1 中包含类别 5 和 10?
-
是区间还是数组?
-
它是一个数组,其中包含此配置文件所属类别的信息。像配置文件 1 一样属于类别 5 和 10。
标签: machine-learning data-science feature-extraction feature-engineering