【问题标题】:Text-Classification: Bag of words with MinMax-Scaler文本分类:使用 MinMax-Scaler 的词袋
【发布时间】:2016-08-28 12:59:13
【问题描述】:
我尝试根据词袋表示对文档进行分类(特征:1000)。对于分类,我使用的是 SVM,似乎有时 SVM 不会终止并无休止地运行。 (运行 sci-kit: SVC(C=1.0,kernel='linear', cache_size=5000, verbose=True))
现在我正在寻找解决方案,我正在考虑应用 MinMax-Scaler 来获得计算高效的文档表示。但是我是否用特征规范化搞砸了我的单词表示包?
提前致谢!
【问题讨论】:
标签:
machine-learning
scikit-learn
text-classification
【解决方案1】:
它确实会终止,只是非常缓慢。缩放你的词袋不会“搞砸”任何东西——实际上这是一种非常常见的技术,你很少会使用一个使用词袋的模型——你要么使用一组词(根据定义进行缩放),要么使用 som 缩放规范化的袋子单词,例如 tf-idf (通常比通过 min max “挤压”更好)。一般来说,minmax 是一种非常粗糙的技术,对异常值非常敏感(因此,如果您的文档包含 1000 次出现的单词“foo”,那么您的“foo”维度将被压缩 1000,即使它只是一个异常值)。因此 - 宁愿选择 tfidf 或至少标准缩放器。