本文只是大概记录一下数据挖掘的探索过程:

train = pd.read_csv('./used_car_train_20200313/used_car_train_20200313.csv',delimiter=' ')
test = pd.read_csv('./used_car_testA_20200313/used_car_testA_20200313.csv',delimiter=' ')

train.head(10)

DataWhale活动

      然后查看一下描述信息:主要观察方差和4分位数。明确数据大概情况。DataWhale活动

 

data.isnull().sum()查看数据空值情况。

DataWhale活动

DataWhale活动
 

如果选择模型是树模型,可以直接填充为Nan,如果是其他模型,需要进行众数或者平均数填充。

 

然后查看一些价格的分布曲线图:主要查看偏度和峰度。观察大致分布走势.

DataWhale活动

DataWhale活动

很明显上面的峰度特别大,很有可能是某个数据的价格过于集中,然后查看一下价格的统计量:

DataWhale活动

因为大于20000的特别少,且不具备普适性。所以这里我们用 log进行转换。

DataWhale活动

然后 我们接下来将特征分为数值型和分类型:

DataWhale活动

这段代码可以查看特征的数据量分布

DataWhale活动

对数字特征进行分析:

 DataWhale活动

DataWhale活动

以上可以简单的探索数据出特征的重要性,以及特征的大致分布情况。后续再补充。。具体可查看下载资源。

相关文章:

  • 2021-05-20
  • 2021-06-01
  • 2021-05-01
  • 2021-04-29
  • 2021-05-27
  • 2021-11-30
  • 2021-03-27
  • 2021-08-14
猜你喜欢
  • 2021-05-20
  • 2021-07-05
  • 2021-06-01
  • 2022-12-23
  • 2021-11-09
  • 2021-11-17
  • 2021-07-15
相关资源
相似解决方案