【发布时间】:2018-01-04 08:14:22
【问题描述】:
我有大约 60 个特征的数据,并且大多数时候在我的训练数据中大部分时间都是零,只有 2-3 列可能有值(准确地说是它的性能日志数据)。但是,我的测试数据在其他一些列中会有一些值。
我已经完成了标准化/标准化(分别尝试)并将其提供给 PCA/SVD(分别尝试)。我使用这些功能来拟合我的模型,但是它给出的结果非常不准确。
然而,如果我跳过归一化/标准化步骤,直接将我的数据提供给 PCA/SVD,然后提供给模型,它会给出准确的结果(准确率几乎超过 90%)。
P.S.:我必须使用隔离森林算法进行异常检测。
为什么这些结果各不相同?
【问题讨论】:
标签: python machine-learning pca svd normalize