【问题标题】:Text classification: Raw dictionary input and text vectorization文本分类:原始字典输入和文本向量化
【发布时间】:2019-06-03 11:24:03
【问题描述】:

我正在使用一系列 sklearn 分类器进行一些文本处理。在网上找到一个example,注意到分类器的输入是一系列字典项:

({'my': True, 'first': True, 'visit': True, 'was': True, ...}, 'pos')

({'wowjust': True, 'wow': True, 'who': True, 'would': True,..}, 'pos')

这些项目被传递到分类模型中(例如,sklearn LinearSVC)。我在 sklearn 站点中发现,在文本分类中,文本数据使用某种技术转换为向量,例如 HashingVectorizer,但我找不到任何关于如何处理上述字典输入的文档。能否解释一下在这个输入案例中遵循什么程序?

【问题讨论】:

    标签: scikit-learn natural-language-processing


    【解决方案1】:

    根据documentation,它标记化它获得的文本(您可以自定义如何标记文本,一个正则表达式告诉您认为一个单词和停用词列表要省略),并为每个存活的令牌,它是一个介于 0 和 n_features 之间的数字(向量化器的另一个参数)。

    CountVectorizer 不同,您始终可以肯定,您拥有完全正确的n_features 功能,但确实存在哈希冲突的风险。

    【讨论】:

      猜你喜欢
      • 2012-08-28
      • 1970-01-01
      • 2021-10-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-09-12
      • 2013-08-06
      相关资源
      最近更新 更多