【发布时间】:2017-06-14 11:14:24
【问题描述】:
我想将稀疏矩阵 (156060x11780) 转换为数据帧,但出现内存错误,这是我的代码
vect = TfidfVectorizer(sublinear_tf=True, analyzer='word',
stop_words='english' , tokenizer=tokenize,
strip_accents = 'ascii')
X = vect.fit_transform(df.pop('Phrase')).toarray()
for i, col in enumerate(vect.get_feature_names()):
df[col] = X[:, i]
X = vect.fit_transform(df.pop('Phrase')).toarray() 有问题。我该如何解决?
【问题讨论】:
-
这对你有用吗
X = vect.fit_transform(df.pop('Phrase')).todense()? -
否 :( 我之前试过
-
有多少内存可用?
-
12 我用的是linux
标签: python pandas memory dataframe scikit-learn