【发布时间】:2016-04-15 18:50:56
【问题描述】:
我有一些 120k 文本文件和 12 个类别,我想将这些文档分类到其中。 我使用简单的词袋模型并将其提供给 NaiveBayes。但是有人告诉我,使用混合功能会“有帮助”,或者我至少应该尝试一下。例如:-
1.] POS tags + Bigrams,
2.] Bag-of-NER + POS tags
但问题是如何将这两个/三个不同的功能组合为每个文档的单个功能? 其次,哪种“特征混合”最有助于文档分类?
【问题讨论】:
-
为什么不为每个文档创建一个向量?比如计算 Bag of words 向量,计算出 Bigrams 向量后,将两个向量连接起来。(应该是非常大的稀疏向量)。
标签: python nlp classification feature-selection text-classification