【发布时间】:2019-09-02 20:28:57
【问题描述】:
我需要熟悉我所面临问题的任何人的帮助。
我想使用 SVM、随机森林和深度神经网络 (DNN) 对两个不同的数据集进行分类。我的一个数据集是平衡的,另一个数据是高度不平衡的。下面是我的数据集的图像,它的分类不平衡。
我想比较用于这两种数据的所有机器学习的分类结果。哪个数据集产生更好的分类结果。对于平衡数据集,我没有问题导致正常处理它的方式,但对于不平衡我有点困惑。
我的问题是我对使用不平衡数据进行分类的步骤感到困惑。据我所知,要处理不平衡的数据,我们应该进行抽样。
我必须先分类并获得结果,还是应该先进行过采样并分类并获得结果?使用不平衡数据集进行分类的正确步骤是什么?我希望任何人都可以帮助我,因为我还是这个领域的新手。
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
data=pd.read_csv("ImbalancedData.csv")
y = data.Class
x = data.drop('Class,axis=1)
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3)
【问题讨论】:
-
datascience.stackexchange.com 会是一个更好的网站,我想他们可能已经有关于如何处理不平衡数据进行分类的问题和答案
-
您的 1 个班级有多少样本?这种巨大的类不平衡在异常检测中很常见,它有一些处理它的技术。就像将其制定为一类问题(仅训练模型 0 类),然后在两者上进行验证/测试
-
@jonnor 对于第 0 类有 126,348 个样本,第 1 类是 1,840 个样本。
标签: python machine-learning classification