【发布时间】:2013-10-20 14:49:03
【问题描述】:
我的数据库中有大约 1600 篇文章,每篇文章都预先标记了以下类别之一:
Technology
Science
Business
World
Health
Entertainment
Sports
我正在尝试使用 sci-kit learn 来构建一个分类器来对新文章进行分类。 (我想我会将我的训练数据分成两半,用于训练和测试?)
我希望使用 tf-idf,因为我没有停用词列表(不过,我可以使用 NLTK 仅提取形容词和名词,但我宁愿提供 scikit-learn 全文)。
我已经阅读了关于 scikit-learn 的所有文档,但他们的示例涉及单词出现和 N-gram(这很好),但他们从未指定如何将一条数据绑定到标签。
我试过查看他们的示例代码,但是太混乱了,无法理解。
有人可以帮我解决这个问题,或者指出正确的方向吗?
谢谢。
【问题讨论】:
-
请展示您的尝试。
-
@larsmans 我不知道从哪里开始,是问题所在。我读过的所有文档(仅此而已)似乎都不适用于标记数据。我正在寻找有更多经验的人为我指明正确的方向。
-
example gallery 中有几个文档分类示例,其他许多示例也是关于分类的。
-
首先,SVM 又名。支持向量机。 Sci-kit learn 可以与 Pandas 一起工作,并与各种分类器很好地集成(例如,Naive Bayes 是一个不错的选择,或者我实际上推荐 Pattern 的 LDA)。见gist.github.com/zacstewart/5978000。您甚至可以创建自己的向量。 scikit-learn.org/stable/modules/svm.html。这一切都基于距离(欧几里得、tf-idf + 余弦等以及某种形式的聚类)。如有必要,可以使用特征提取器。
标签: python classification scikit-learn