【发布时间】:2012-11-24 08:30:54
【问题描述】:
首先,我昨天开始使用 python。我正在尝试使用 SciKit 和大型数据集(250.000 条推文)进行文本分类。对于该算法,每条推文都将表示为一个 4000 x 1 的向量,因此这意味着输入是 250.000 行和 4000 列。当我尝试在 python 中构建它时,我在 8500 条推文后内存不足(使用列表并附加它时),当我预先分配内存时,我得到了错误:MemoryError (np.zeros(4000,2500000 ))。 SciKit 不能处理这些大型数据集吗?我做错了什么(因为这是我使用 python 的第二天)?是否有另一种表示特征的方式,以便它适合我的记忆?
编辑:我想要伯努利 NB
edit2:在线学习可能吗?读一条推文,让模型使用这条推文,从内存中删除它,读另一个,让模型学习……但我认为 Bernoulli NB 不允许在 scikit-learn 中进行在线学习
【问题讨论】:
标签: python nlp scikit-learn scikits