【发布时间】:2015-01-06 17:19:49
【问题描述】:
我有一个包含 4000 万行(约 8Mb)的数据集,而每行都是浮点类型。我想使用 sklearn 内核密度估计来拟合这个数据集和高斯内核。但它在我的电脑上太慢了(4GB RAM,256GB SSD)。那么,sklearn kde 可以处理百万甚至更多样本的数据集吗?
【问题讨论】:
标签: kernel scikit-learn handle kernel-density
我有一个包含 4000 万行(约 8Mb)的数据集,而每行都是浮点类型。我想使用 sklearn 内核密度估计来拟合这个数据集和高斯内核。但它在我的电脑上太慢了(4GB RAM,256GB SSD)。那么,sklearn kde 可以处理百万甚至更多样本的数据集吗?
【问题讨论】:
标签: kernel scikit-learn handle kernel-density
是的,sci-kit 可以处理大量数据。 但正如您发现的那样,可能是您的机器不够用。或者,您可能需要更好地使用该软件。阅读 sci-kit 文档中的Strategies to scale computationally: bigger data。
编辑:交叉验证上的Density estimation for large dataset 非常相关。
【讨论】: