【问题标题】:Extract features for tag prediction project为标签预测项目提取特征
【发布时间】:2016-05-30 15:43:31
【问题描述】:

我正在考虑做一个项目,用于在 python 中提取堆栈交换问题的关键字。 我有一个来自 kaggle.com 的输入数据,其中包含用于训练的 id、title、body 和标签。 我正在考虑实施一些机器学习算法,如 SVM、神经网络等来训练分类器。 问题是对于这些算法的输入,我们需要特征。 而且我不知道如何从这些算法的输入中提取特征,因为我以前从未从段落中提取特征。 任何帮助将不胜感激。

【问题讨论】:

  • 文本的基本特征是术语(大致是单个单词)。但您也可能会考虑其他因素,例如词频等(请查看Features for text,请记住特征工程 是机器学习中的关键问题之一)。 Scikit-learn 内置了feature extraction functions for text。一旦你实现了一些更具体的问题将更适合 Stackoverflow。

标签: python algorithm machine-learning svm text-mining


【解决方案1】:

许多关键字提取算法都基于经典的统计技术(包括图形模型)。流行的功能主要是基于频率的。也存在一些排名词的算法。 如需进一步研究,请参考这篇论文:

http://www.hlt.utdallas.edu/~saidul/acl14.pdf

【讨论】:

    【解决方案2】:

    特征选择至关重要,它为您的问题提供了特征相关性的信息。Sergios Theodoridis 和 Konstantinos Koutroumbas 的《模式识别》一书中给出了很好的理论解释。 我找到了这个简单的代码示例

    # Feature Importance
    from sklearn import datasets
    from sklearn import metrics
    from sklearn.ensemble import ExtraTreesClassifier
    # load the iris datasets
    dataset = datasets.load_iris()
    # fit an Extra Trees model to the data
    model = ExtraTreesClassifier()
    model.fit(dataset.data, dataset.target)
    # display the relative importance of each attribute
    print(model.feature_importances_)
    

    结果

    0.1087327   0.06409384  0.32304493  0.50412853
    

    您可以阅读更多 [http://machinelearningmastery.com/feature-selection-in-python-with-scikit-learn/],with 示例。

    【讨论】:

      猜你喜欢
      • 2020-09-04
      • 1970-01-01
      • 1970-01-01
      • 2018-08-28
      • 1970-01-01
      • 2020-10-08
      • 2021-09-24
      • 2017-04-08
      • 1970-01-01
      相关资源
      最近更新 更多