【发布时间】:2018-02-24 12:02:20
【问题描述】:
我在文本分类任务中使用SelectFromModel 和MultinomialNB 进行特征选择。
SelectFromModel(estimator=MultinomialNB(alpha=1.0))
SelectFromModel 通过计算确定特征的重要性:
importances = np.linalg.norm(estimator.coef_, axis=0,ord=norm_order)
但这不是和我想要的完全相反吗,因为高频率的特征会导致低绝对值?
对于确定给定特定类别的特征的重要性,已经有多个得到很好回答的问题,但对于一般特征重要性而言,则不是。
有没有办法通过 SelectFromModel 结合 NB 来确定特征重要性,还是其他方法更适合这项任务?
【问题讨论】:
-
请详细说明一下。您所说的“高频饮食”是什么意思?此外,这是一项分类任务,因此显然特征重要性将根据类别而定。你能详细解释一下你想要什么吗?
-
我指的是具有高词频的特征(在文档中),例如使用 CountVectorizer。 SelectFromModel 基本上确定了分类任务中每个特征的重要性,并选择应该适用于 SVC 等分类器的“最重要特征”,但正如我试图解释的那样,它似乎不适用于 NB。
标签: python-2.7 machine-learning scikit-learn naivebayes