【发布时间】:2013-06-19 03:00:02
【问题描述】:
我有一个包含 72 个观察值和 592 个变量的数据框 (df),其中包含一个因子类变量(总共 593 个变量,即 dim(df) = 72 593)。我正在寻找一种方法来选择 7 个变量(包括类变量),使用接收器操作特性 (ROC) 来选择最佳 k 值。我想通过图形模型使用这七个变量进行分析,但我不想随机选择变量。我希望我的选择在统计上是合理的。
我希望看到的结果类似于:
根据 ROC 的最高值选择变量 V23、V120、V230、V333、V496、V585、V593。
即我想对高精度的“最佳”预测变量进行分类和选择,以便我可以将这些变量用于图形建模。
我曾尝试使用 caret 包,但我不知道如何操作它来选择可用于其他分析的高精度变量(列)。
谢谢各位。相信有人理解我。
谢谢。
kutex。
【问题讨论】: