【问题标题】:Classifier extraction from MLSeq R package从 MLSeq R 包中提取分类器
【发布时间】:2019-03-06 20:00:54
【问题描述】:

我目前对 R 相当陌生,并且无法从包中提取我想要的信息。

我正在使用MLSeq 在 RNA Seq 数据上实施随机森林,以查找某种疾病的生物标志物。目前,默认给出的输出是它对数据的分类程度以及描述实际类别与预测类别的表格。

我想要的是每个功能的重要性,以便我可以获取排名最高的功能并继续调查这些功能。

有没有人使用过 MLSeq 包或知道具有此功能的类似机器学习包?

【问题讨论】:

  • 欢迎来到 StackOverflow。您需要详细说明您遇到的问题。您可以发布的任何不适合您的代码/示例?
  • 代码可以运行,但很难举个例子。 MLSeq 手册没有详细说明这个问题,此时它只是包含我的数据的手册代码。 bioconductor.org/packages/release/bioc/vignettes/MLSeq/inst/doc/… Pg 8,顶部是我目前拥有的输出。有一个名为“MLSeq 类”的对象类,如第 7 页所示,它们表示一个变量“rf”,在该对象中,我想知道哪些特征最能对数据进行分类并将这些特征用作潜在的生物标志物。对象中有大量数据,如果可能的话,我很难找到我想要的。

标签: r random-forest feature-selection


【解决方案1】:

caret 包有一个非常有用的函数,叫做 varImp。如果您没有大量的预测变量,您可以使用它来获取/绘制它们的重要性。 在你的情况下,假设你已经训练了你的模型:

# training
svm = classify(data = data.trainS4, method = "svm", normalize = "deseq",    deseqTransform = "voom", cv = 3, rpt = 3, ref = "PP")

您可以使用以下命令获取预测变量的可变重要性:

VI <- varImp(svm@trained)

不过,在此之前,请仔细阅读 varImp() 的工作原理

【讨论】:

    猜你喜欢
    • 2017-03-18
    • 2014-02-14
    • 2017-04-03
    • 2018-03-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多