【发布时间】:2019-06-03 11:24:03
【问题描述】:
我正在使用一系列 sklearn 分类器进行一些文本处理。在网上找到一个example,注意到分类器的输入是一系列字典项:
({'my': True, 'first': True, 'visit': True, 'was': True, ...}, 'pos')
({'wowjust': True, 'wow': True, 'who': True, 'would': True,..}, 'pos')
这些项目被传递到分类模型中(例如,sklearn LinearSVC)。我在 sklearn 站点中发现,在文本分类中,文本数据使用某种技术转换为向量,例如 HashingVectorizer,但我找不到任何关于如何处理上述字典输入的文档。能否解释一下在这个输入案例中遵循什么程序?
【问题讨论】:
标签: scikit-learn natural-language-processing