文本分类：原始字典输入和文本向量化答案

【问题标题】：Text classification: Raw dictionary input and text vectorization文本分类：原始字典输入和文本向量化
【发布时间】：2019-06-03 11:24:03
【问题描述】：

我正在使用一系列 sklearn 分类器进行一些文本处理。在网上找到一个example，注意到分类器的输入是一系列字典项：

({'my': True, 'first': True, 'visit': True, 'was': True, ...}, 'pos')

({'wowjust': True, 'wow': True, 'who': True, 'would': True,..}, 'pos')

这些项目被传递到分类模型中（例如，sklearn LinearSVC）。我在 sklearn 站点中发现，在文本分类中，文本数据使用某种技术转换为向量，例如 HashingVectorizer，但我找不到任何关于如何处理上述字典输入的文档。能否解释一下在这个输入案例中遵循什么程序？

【问题讨论】：

【解决方案1】：

根据documentation，它标记化它获得的文本（您可以自定义如何标记文本，一个正则表达式告诉您认为一个单词和停用词列表要省略），并为每个存活的令牌，它是一个介于 0 和 n_features 之间的数字（向量化器的另一个参数）。

与CountVectorizer 不同，您始终可以肯定，您拥有完全正确的n_features 功能，但确实存在哈希冲突的风险。

【讨论】：