【发布时间】:2019-06-13 15:31:48
【问题描述】:
我有:
1) 2组受试者(对照组和癌症患者)
2) 一组特征,每个特征。
我想找到一个特征,或者哪些特征的哪个组合,最能区分两组。
我已经开始评估 AUC,然后使用一些 k 均值聚类,但我不知道如何组合特征进行分类。
谢谢
【问题讨论】:
标签: classification cluster-analysis prediction feature-selection auc
我有:
1) 2组受试者(对照组和癌症患者)
2) 一组特征,每个特征。
我想找到一个特征,或者哪些特征的哪个组合,最能区分两组。
我已经开始评估 AUC,然后使用一些 k 均值聚类,但我不知道如何组合特征进行分类。
谢谢
【问题讨论】:
标签: classification cluster-analysis prediction feature-selection auc
我建议你使用一些特征重要性评估的方法。有许多不同的方法来测试特征的重要性。一开始,在我看来,最简单的是随机森林分类器。该模型在训练期间具有“内置”特征重要性评估,基于袋外错误。基于树的分类器必须在训练过程中获取特征值后评估信息增益。
您还可以通过修改数据集来检查模型分数来测试特征重要性,即使用向后消除策略。
您还可以使用 PCA 或统计测试。最后,您还可以寻找功能之间的依赖关系,以从您的数据中删除没有提供足够信息的功能。
【讨论】: