处理稀疏+非稀疏数据以创建模型的最佳方法答案

【问题标题】：Best way to handle sparse + non-sparse data to create a model处理稀疏+非稀疏数据以创建模型的最佳方法
【发布时间】：2016-01-15 03:41:11
【问题描述】：

我想知道处理稀疏+非稀疏数据的最佳方法是什么，例如使用 scikit learn 进行岭回归。

Ridge 可以处理稀疏和非稀疏数据。

想象一个简单的东西，例如一个得到 Count/Tdidf 向量化（稀疏）的 description（文本）字段和一个 income 连续变量。

现在假设我们有几个其他文本字段和几个其他连续变量。

对一些连续的y 变量建模的最佳方法是什么？

我考虑过制作两个独立的模型（一个使用稀疏数据，一个使用非稀疏数据）并尝试以某种方式组合。

我还考虑过使用 PCA 将稀疏数据变成“可处理”数量的连续特征。

你通常如何解决这个问题？

注意：连续变量将具有许多唯一值（并且在将连续变量转换为 bin 时无论如何都会失去功率），并且文本字段最终可能具有大约一百万个特征，因此无法密集。

【问题讨论】：

【解决方案1】：

这个回复可能有点断章取义，但我想通过“Ridge 可以处理稀疏和非稀疏数据”来理解？我正在尝试在 R 中运行具有所有文本字段的逻辑回归模型，但是，我的因变量非常稀疏。只有 0.9%。你认为 Ridge 会是一个很好的算法吗？

【讨论】：