文本分类：使用 MinMax-Scaler 的词袋

【问题标题】：Text-Classification: Bag of words with MinMax-Scaler文本分类：使用 MinMax-Scaler 的词袋
【发布时间】：2016-08-28 12:59:13
【问题描述】：

我尝试根据词袋表示对文档进行分类（特征：1000）。对于分类，我使用的是 SVM，似乎有时 SVM 不会终止并无休止地运行。 (运行 sci-kit: SVC(C=1.0,kernel='linear', cache_size=5000, verbose=True)) 现在我正在寻找解决方案，我正在考虑应用 MinMax-Scaler 来获得计算高效的文档表示。但是我是否用特征规范化搞砸了我的单词表示包？

提前致谢！

【问题讨论】：

标签： machine-learning scikit-learn text-classification

【解决方案1】：

它确实会终止，只是非常缓慢。缩放你的词袋不会“搞砸”任何东西——实际上这是一种非常常见的技术，你很少会使用一个使用词袋的模型——你要么使用一组词（根据定义进行缩放），要么使用 som 缩放规范化的袋子单词，例如 tf-idf （通常比通过 min max “挤压”更好）。一般来说，minmax 是一种非常粗糙的技术，对异常值非常敏感（因此，如果您的文档包含 1000 次出现的单词“foo”，那么您的“foo”维度将被压缩 1000，即使它只是一个异常值）。因此 - 宁愿选择 tfidf 或至少标准缩放器。

【讨论】：