【问题标题】:Extract features for tag prediction project为标签预测项目提取特征
【发布时间】:2016-05-30 15:43:31
【问题描述】:
我正在考虑做一个项目,用于在 python 中提取堆栈交换问题的关键字。
我有一个来自 kaggle.com 的输入数据,其中包含用于训练的 id、title、body 和标签。
我正在考虑实施一些机器学习算法,如 SVM、神经网络等来训练分类器。
问题是对于这些算法的输入,我们需要特征。
而且我不知道如何从这些算法的输入中提取特征,因为我以前从未从段落中提取特征。
任何帮助将不胜感激。
【问题讨论】:
标签:
python
algorithm
machine-learning
svm
text-mining
【解决方案2】:
特征选择至关重要,它为您的问题提供了特征相关性的信息。Sergios Theodoridis 和 Konstantinos Koutroumbas 的《模式识别》一书中给出了很好的理论解释。
我找到了这个简单的代码示例
# Feature Importance
from sklearn import datasets
from sklearn import metrics
from sklearn.ensemble import ExtraTreesClassifier
# load the iris datasets
dataset = datasets.load_iris()
# fit an Extra Trees model to the data
model = ExtraTreesClassifier()
model.fit(dataset.data, dataset.target)
# display the relative importance of each attribute
print(model.feature_importances_)
结果
0.1087327 0.06409384 0.32304493 0.50412853
您可以阅读更多 [http://machinelearningmastery.com/feature-selection-in-python-with-scikit-learn/],with 示例。