如何组合不同的特征并将其提供给文本分类算法答案

【问题标题】：how to combine and feed different features to an algorithm for text classification如何组合不同的特征并将其提供给文本分类算法
【发布时间】：2016-04-15 18:50:56
【问题描述】：

我有一些 120k 文本文件和 12 个类别，我想将这些文档分类到其中。我使用简单的词袋模型并将其提供给 NaiveBayes。但是有人告诉我，使用混合功能会“有帮助”，或者我至少应该尝试一下。例如：-

1.] POS tags + Bigrams, 
2.] Bag-of-NER + POS tags

但问题是如何将这两个/三个不同的功能组合为每个文档的单个功能？其次，哪种“特征混合”最有助于文档分类？

【问题讨论】：

为什么不为每个文档创建一个向量？比如计算 Bag of words 向量，计算出 Bigrams 向量后，将两个向量连接起来。（应该是非常大的稀疏向量）。

标签： python nlp classification feature-selection text-classification

【解决方案1】：

您可以尝试以下操作：

为每个文档计算例如 Bag of words 向量和 Bigrams 向量。

连接两个向量得到一个大的稀疏向量。

使用一些降维技术可以找到低维嵌入，其中每个特征都是原始特征的组合。你可以试试PCA或者LDA（线性判别分析）。

【讨论】：