【发布时间】:2019-12-01 02:55:43
【问题描述】:
我正在开发一个模型,它可以预测员工是继续工作还是离开公司。
特点如下
- satisfaction_level
- last_evaluation
- number_projects
- average_monthly_hours
- time_spend_company
- work_accident
- promotion_last_5years
- 部门
- 工资
- 左(布尔值)
在特征分析期间,我提出了两种方法,在这两种方法中,我得到了不同的特征结果。如图所示 here
当我绘制 heatmap 时,可以看出 satisfaction_level 与 left 有 负相关。
另一方面,如果我只使用 pandas 进行分析,我得到的结果类似于 this
在上图中,可以看出satisfaction_level在分析中非常重要,因为较高满意程度保留工作的员工。
虽然在 time_spend_company 的情况下,热图显示它很重要,而另一方面,差异在第二张图像中并不是很重要。
现在我很困惑是否将其作为我的功能之一,以及我应该选择哪种方法来选择功能。
请帮我解决这个问题。
顺便说一句,我在 scikit-learn 中进行 ML,数据取自 here。
【问题讨论】:
标签: scikit-learn feature-selection