稀疏二元矩阵的二元分类答案

【问题标题】：binary classification with sparse binary matrix稀疏二元矩阵的二元分类
【发布时间】：2016-07-12 10:58:02
【问题描述】：

我的犯罪分类数据集有指标特征，例如has_rifle。

工作是训练和预测数据点是否是罪犯。该指标是加权平均绝对误差，如果此人是罪犯，并且模型预测他/她不是，那么权重为5。如果此人不是犯罪分子并且模型预测他/她是，那么权重是1。否则模型预测正确，权重为0。

我在R 中的mlr 中使用了classif:multinom 方法，并将阈值调整为1/6。结果不是那么好。 Adaboost 稍微好一点。虽然两者都不完美。

我想知道在这种具有稀疏{0,1} 矩阵的二元分类问题中通常使用哪种方法？以及如何提高加权平均绝对误差度量的性能？

【问题讨论】：

【解决方案1】：

处理稀疏数据并非易事。缺乏信息使得难以捕捉诸如方差之类的特征。我建议您搜索子空间聚类方法或更具体的软子空间聚类。最后一个通常标识相关/不相关的数据维度。当您想提高分类准确度时，这是一个很好的方法。

【讨论】：