【发布时间】:2013-02-20 22:18:45
【问题描述】:
我已使用 sklearn.feature_extraction.text.TfidfVectorizer 对已转换为 TF*IDF 特征向量的训练文档执行 χ² 特征选择,默认情况下会生成归一化向量。然而,在选择了前 K 个信息量最大的特征后,由于移除了维度,向量不再被归一化(所有向量现在的长度
是否建议在特征选择后重新归一化特征向量?我也不太清楚 B/T 标准化和缩放的主要区别。它们是否为 SVC 等学习者提供了类似的目的?
提前感谢您的友好回答!
【问题讨论】:
标签: svm scikit-learn document-classification