【问题标题】:how to combine and feed different features to an algorithm for text classification如何组合不同的特征并将其提供给文本分类算法
【发布时间】:2016-04-15 18:50:56
【问题描述】:

我有一些 120k 文本文件和 12 个类别,我想将这些文档分类到其中。 我使用简单的词袋模型并将其提供给 NaiveBayes。但是有人告诉我,使用混合功能会“有帮助”,或者我至少应该尝试一下。例如:-

1.] POS tags + Bigrams, 
2.] Bag-of-NER + POS tags 

但问题是如何将这两个/三个不同的功能组合为每个文档的单个功能? 其次,哪种“特征混合”最有助于文档分类?

【问题讨论】:

  • 为什么不为每个文档创建一个向量?比如计算 Bag of words 向量,计算出 Bigrams 向量后,将两个向量连接起来。(应该是非常大的稀疏向量)。

标签: python nlp classification feature-selection text-classification


【解决方案1】:

您可以尝试以下操作:

为每个文档计算例如 Bag of words 向量和 Bigrams 向量。

连接两个向量得到一个大的稀疏向量。

使用一些降维技术可以找到低维嵌入,其中每个特征都是原始特征的组合。 你可以试试PCA或者LDA(线性判别分析)。

【讨论】:

    猜你喜欢
    • 2017-05-16
    • 2019-06-30
    • 2013-03-06
    • 2019-05-25
    • 2015-01-07
    • 2019-01-20
    • 2015-05-10
    • 2020-05-03
    • 2014-07-18
    相关资源
    最近更新 更多