【发布时间】:2017-03-31 01:48:39
【问题描述】:
我正在寻找展示如何为文本分类绘制决策边界的示例。我知道 sklearn 文档中的一些示例,但是如何将它们应用于文本数据?
我什至不确定,要绘制什么。可以为此绘制决策边界吗?
我正在考虑以某种方式使用 CountVectorizer 的结果,然后将其转换为 np.array。
网上有什么好的例子吗?
【问题讨论】:
-
为非文本分类问题绘制决策边界并没有太大区别。归根结底,那些
sklearn算法正在使用特征矩阵(无论是来自CountVectorizer还是普通的numpy数组)。然而,高维文本数据可能会使这种绘图变得困难,因此可能需要某种形式的 SVD。 -
但是我用什么做轴?词的频率?
-
想想this 的例子。两个向量如何绘制在与分类问题相关的轴上?回答您的问题:在文本分类问题中您将有 许多 个轴,因为您的特征矩阵非常庞大,这就是 SVD 很重要的原因。
-
啊啊,好吧,我想我明白了。我想错了。现在我只需要让 SVD 工作;)谢谢!
标签: scikit-learn classification