【问题标题】:SciKit SGD Regressor RBF Kernel ApproximationSciKit SGD 回归器 RBF 内核逼近
【发布时间】:2013-11-29 05:02:53
【问题描述】:

我正在使用 scikit-learn 并希望使用 RBF 内核运行 SVR。我的数据集非常大,因此通过阅读其他帖子,我被建议使用 SGD 回归和 RBF 近似。有趣的是,与单独使用 SGD 相比,使用带有 RBF 的 SGD 得到的结果更差。我想这将是由于错误的参数值。我尝试循环遍历 RBF 采样器的 gamma 和 n_components 并尝试了 SGD regessor 的一些参数,但无济于事。我还输出了训练和交叉验证的错误,两者大致相同,所以我认为这是一个偏差问题。

【问题讨论】:

  • Stackoverflow 不是询问机器学习领域特定问题的最佳场所。我认为更好的选择是:stats.stackexchange.com/search?q=scikit
  • 您使用的是哪种近似值?我发现 Nystroem 在相同的维度上比 RBFSampler 工作得更好。此外,更多的维度总是更好。您应该只搜索 gamma 和 SGD 参数。也许宁愿尝试 LinearSVC(dual=False) 并搜索 C(和 gamma)。
  • 这个问题似乎是题外话,因为它是关于统计,而不是编程。

标签: machine-learning scikit-learn


【解决方案1】:

为什么您认为 RBF 特征空间必须比线性特征空间具有更高的准确度?虽然情况经常如此,但没有理由相信这一定是真的。 RBF 内核对整个类别的真实世界数据表现不佳

除此之外,还有许多其他问题可以提出/探索。如果没有其他人使用/探索您的数据,这些问题通常是不可理解的。如:

  • 原始特征值是否正确归一化?
  • 所使用的近似方法是否适合数据量/数据类型
  • 问题是病态还是几乎病态?如果是这样 - 我们对近似的近似是我们错误的原因吗?
  • 原始特征是否足以使用 RBF?
  • 测试的参数值是否适合我的数据及其缩放比例?
  • 目前获得的错误率是多少?疼痛可行错误率的合理预期是多少?

【讨论】:

    猜你喜欢
    • 2019-09-16
    • 2015-10-15
    • 2015-05-31
    • 2014-03-15
    • 2017-03-22
    • 2019-04-26
    • 1970-01-01
    • 2015-01-22
    • 1970-01-01
    相关资源
    最近更新 更多