【发布时间】:2020-09-04 05:57:06
【问题描述】:
我正在研究一个有监督的 ML 分类用例,我有 5 个特征和一个目标变量。假设 5 个特征是 A、B、C、D、E、F,目标变量是 G。E 特征不是原始特征,这意味着它是从其他一些特征中预测的。我尝试使用该功能进行模型构建,分类指标非常好。但是现在我的老板说我们不能使用Feature E,因为它不是直接可用的,我们需要先预测它,然后用它来预测目标G。
以下是我尝试过的一些事情:
我尝试通过从特征列表中删除特征 E 来构建模型,但指标下降意味着特征 E 很重要。
Boss 说特征 E 派生或依赖于特征 A、B、C、D 和 F,因此我们可以使用它来预测特征 E,然后使用特征 A、B、C、D、E, F 预测 G。
这是我的担忧:
如果特征 E 依赖于特征 A、B、C、D 和 F,那么在构建模型时不使用特征 E 不会对我的指标产生太大影响。
如果我使用特征 A、B、C、D 和 F 来预测特征 E,并且确实使用特征 A、B、C、D、E、F 来预测 G,我不会使用相关特征模型构建,因为 E 是使用 A、B、C、D 和 F 预测的。使用 F 不会向我的特征集添加任何额外信息。
我的理解是,如果通过从我的特征列表中删除特征 E 来构建模型会丢弃我的指标,那么这意味着特征 E 来自其他地方,即除了特征 A、B、C、D、F 之外。
我不是 ML 方面的经验丰富的人,这些是我对这个问题的想法。
请告诉我我的思路是否正确?
【问题讨论】:
标签: python machine-learning supervised-learning