sklearn 可以通过核密度估计处理多少数据

【问题标题】：How much data can sklearn handle with kernel density estimationsklearn 可以通过核密度估计处理多少数据
【发布时间】：2015-01-06 17:19:49
【问题描述】：

我有一个包含 4000 万行（约 8Mb）的数据集，而每行都是浮点类型。我想使用 sklearn 内核密度估计来拟合这个数据集和高斯内核。但它在我的电脑上太慢了（4GB RAM，256GB SSD）。那么，sklearn kde 可以处理百万甚至更多样本的数据集吗？

【问题讨论】：

【解决方案1】：

是的，sci-kit 可以处理大量数据。但正如您发现的那样，可能是您的机器不够用。或者，您可能需要更好地使用该软件。阅读 sci-kit 文档中的Strategies to scale computationally: bigger data。

编辑：交叉验证上的Density estimation for large dataset 非常相关。

【讨论】：