【问题标题】:Best way to handle sparse + non-sparse data to create a model处理稀疏+非稀疏数据以创建模型的最佳方法
【发布时间】:2016-01-15 03:41:11
【问题描述】:

我想知道处理稀疏+非稀疏数据的最佳方法是什么,例如使用 scikit learn 进行岭回归。

Ridge 可以处理稀疏和非稀疏数据。

想象一个简单的东西,例如一个得到 Count/Tdidf 向量化(稀疏)的 description(文本)字段和一个 income 连续变量。

现在假设我们有几个其他文本字段和几个其他连续变量。

对一些连续的y 变量建模的最佳方法是什么?

我考虑过制作两个独立的模型(一个使用稀疏数据,一个使用非稀疏数据)并尝试以某种方式组合。

我还考虑过使用 PCA 将稀疏数据变成“可处理”数量的连续特征。

你通常如何解决这个问题?

注意:连续变量将具有许多唯一值(并且在将连续变量转换为 bin 时无论如何都会失去功率),并且文本字段最终可能具有大约一百万个特征,因此无法密集。

【问题讨论】:

    标签: r scikit-learn sparse-matrix estimation


    【解决方案1】:

    这个回复可能有点断章取义,但我想通过“Ridge 可以处理稀疏和非稀疏数据”来理解?我正在尝试在 R 中运行具有所有文本字段的逻辑回归模型,但是,我的因变量非常稀疏。只有 0.9%。你认为 Ridge 会是一个很好的算法吗?

    【讨论】:

      猜你喜欢
      • 2017-03-31
      • 2016-10-15
      • 2014-05-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-09-05
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多