【发布时间】:2013-12-15 08:57:04
【问题描述】:
我正在解决一个多标签分类问题。我有大约 600 万行要处理,它们是大量的文本。它们在单独的列中使用多个标签进行标记。
关于哪些 scikit 库可以帮助我扩展代码的任何建议。我在其中使用 One-vs-Rest 和 SVM。但它们不会扩展到超过 90-100k 行。
classifier = Pipeline([
('vectorizer', CountVectorizer(min_df=1)),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(LinearSVC()))])
【问题讨论】:
-
尝试使用
partial_fitAPI 为每个标签训练一个SGDClassifier。还可以考虑使用HashingVectorizer而不是count + tf-idf。 -
是否需要对
HashingVectorizer的输出进行缩放或规范化,或者可以直接输入SGDClassifier? -
您是否考虑过切换到随机森林分类器?它的扩展性比 SVM 好得多。
标签: python machine-learning nlp classification scikit-learn