不平衡数据集，异常与正常数据具有相同的分布答案

【问题标题】：unbalanced dataset, anomalies have same distribution as normal data不平衡数据集，异常与正常数据具有相同的分布
【发布时间】：2019-01-20 15:09:06
【问题描述】：

我使用的数据集包含 2 个类别（95%、5%）。

并且这两个类的特征分布几乎相同。

问题是：如何对这 2 个类进行分类并解释模型使用哪个主体对测试集进行分类？

【问题讨论】：

标签： python data-science anomaly-detection

【解决方案1】：

其实特征的分布是有道理的，但是你必须比简单的特征分布做更详细的探索性分析。我建议看一些 3D 图。您可以查看一些有关 EDA 的链接：

https://www.kaggle.com/dejavu23/titanic-eda-to-ml-beginner

https://www.kaggle.com/dejavu23/house-prices-eda-to-ml-beginner

关于分类模型，我建议使用基于Decision Tree 的模型，例如Random Forest 或Gradient Tree Boosting。 Decision Tree 背后的想法是对特征空间进行分区并对它的每个部分进行相同的预测。您可以使用一些包绘制决策树，这将有助于理解模型背后的原理。您可以在这本不错的书中阅读有关所有这些模型的更多信息：

http://www-bcf.usc.edu/~gareth/ISL/

包链接：

https://lightgbm.readthedocs.io/en/latest/

https://scikit-learn.org/stable/modules/tree.html

https://scikit-learn.org/stable/modules/ensemble.html

您可以阅读有关决策树可视化的信息：

https://medium.com/@rnbrown/creating-and-visualizing-decision-trees-with-python-f8e8fa394176

https://www.kaggle.com/willkoehrsen/visualize-a-decision-tree-w-python-scikit-learn

【讨论】：