【问题标题】:Feature selection for Logistic Regression逻辑回归的特征选择
【发布时间】:2021-06-10 17:15:38
【问题描述】:

Kaplan Meier 方法和逻辑回归都有自己的特征选择。我想使用另一种方法来选择最佳特征,例如,反向逐步特征选择。是否可以改用这种方法。

我的数据包含 130 多个特征和大约 3000 个人。由于是医学 [癌症] 数据,我不想使用简单的方法。

可以在此处查看有关该项目的更多信息,并且按我应该做什么的顺序排列:

  1. 预处理数据
  2. 将它们分开进行测试和训练
  3. 训练数据的数据插补
  4. 按训练数据选择特征
  5. 训练模型是 Kaplan MeierLogistic 回归
  6. 测试模型

请告诉我,为他们使用任何其他功能选择是否是错误的? 我也可以使用关于我列出的模型的任何提示。

【问题讨论】:

    标签: logistic-regression feature-selection


    【解决方案1】:

    基本上有 4 种类型的特征选择 (fs) 技术,即:-

    1.) 基于过滤器的 fs 2.) 基于包装器的 fs 3.) 嵌入式 fs 技术 4.) 混合 fs 技术

    每个人都有自己的优点和缺点。例如,当您想确定“一个”特征对输出变量是否重要时,使用过滤器 fs。因此,如果您的数据集中有 400 个特征,则必须重复 400 次!

    基于包装器的方法(正如您在问题中提到的那样),另一方面,这是一个步骤。但它们容易过拟合,而基于过滤器的方法则不会。

    嵌入式方法使用基于树的方法来实现 fs 目的。

    我对混合方法的了解不够。

    我想说您可以使用一些基于包装器的技术,例如 RFECV,因为您说您不想使用简单的过滤器技术。

    【讨论】:

    • 感谢您的回答。我已经尝试过随机森林,我将尝试 RFECV 作为下一个方法。
    猜你喜欢
    • 2018-02-27
    • 2016-01-25
    • 2017-12-07
    • 2014-01-19
    • 2014-08-06
    • 2016-05-15
    • 2016-05-17
    • 2018-07-02
    • 1970-01-01
    相关资源
    最近更新 更多