【问题标题】:Text-Classification: Bag of words with MinMax-Scaler文本分类:使用 MinMax-Scaler 的词袋
【发布时间】:2016-08-28 12:59:13
【问题描述】:

我尝试根据词袋表示对文档进行分类(特征:1000)。对于分类,我使用的是 SVM,似乎有时 SVM 不会终止并无休止地运行。 (运行 sci-kit: SVC(C=1.0,kernel='linear', cache_size=5000, verbose=True)) 现在我正在寻找解决方案,我正在考虑应用 MinMax-Scaler 来获得计算高效的文档表示。但是我是否用特征规范化搞砸了我的单词表示包?

提前致谢!

【问题讨论】:

    标签: machine-learning scikit-learn text-classification


    【解决方案1】:

    它确实会终止,只是非常缓慢。缩放你的词袋不会“搞砸”任何东西——实际上这是一种非常常见的技术,你很少会使用一个使用词袋的模型——你要么使用一组词(根据定义进行缩放),要么使用 som 缩放规范化的袋子单词,例如 tf-idf (通常比通过 min max “挤压”更好)。一般来说,minmax 是一种非常粗糙的技术,对异常值非常敏感(因此,如果您的文档包含 1000 次出现的单词“foo”,那么您的“foo”维度将被压缩 1000,即使它只是一个异常值)。因此 - 宁愿选择 tfidf 或至少标准缩放器。

    【讨论】:

      猜你喜欢
      • 2018-02-09
      • 2021-11-05
      • 2019-02-28
      • 2011-02-20
      • 2018-11-07
      • 1970-01-01
      • 2017-05-08
      • 2014-09-28
      • 2012-12-02
      相关资源
      最近更新 更多