【发布时间】:2021-03-26 04:29:54
【问题描述】:
假设您有 1,400 个列/数据点,用于 200k 个条目,您的目标是确定这些列中的哪些列对简单分类任务显示的信号最多。 我已经删除了具有空值阈值、低方差、坏且分类级别太多的列,我仍然有 900 多列。 如果我只包括 500 多个数字列,我可以使用套索,但如果我尝试包括分类,我会一直崩溃,处理的数据太多。 在这种情况下,您将如何进一步减少功能?我的目标不仅仅是分类本身,还在于识别能够为分类任务带来最多信息的特征。
【问题讨论】:
标签: machine-learning classification logistic-regression feature-selection feature-engineering