【发布时间】:2016-01-15 03:41:11
【问题描述】:
我想知道处理稀疏+非稀疏数据的最佳方法是什么,例如使用 scikit learn 进行岭回归。
Ridge 可以处理稀疏和非稀疏数据。
想象一个简单的东西,例如一个得到 Count/Tdidf 向量化(稀疏)的 description(文本)字段和一个 income 连续变量。
现在假设我们有几个其他文本字段和几个其他连续变量。
对一些连续的y 变量建模的最佳方法是什么?
我考虑过制作两个独立的模型(一个使用稀疏数据,一个使用非稀疏数据)并尝试以某种方式组合。
我还考虑过使用 PCA 将稀疏数据变成“可处理”数量的连续特征。
你通常如何解决这个问题?
注意:连续变量将具有许多唯一值(并且在将连续变量转换为 bin 时无论如何都会失去功率),并且文本字段最终可能具有大约一百万个特征,因此无法密集。
【问题讨论】:
标签: r scikit-learn sparse-matrix estimation