一、二手车价格预测

1.赛题理解

(1)目标是要对二手车价格的预测,是一个典型的回归问题,数具量较大,指标较多,可在优化模型是剔除无关或影响较小的指标;
(2)数据包含了分类数据和连续数据,可采用不同方法做综合处理;
(3)前期数据探索要关注数据的缺失、分布、相关性等问题;
(4)模型评测标准采用MAE(Mean Absolute Error)越小说明模型预测得越精确来评判模型的优劣;

2.EDA(探索性分析)

(1)载入工具包,主要包括numpy、pandas、matplotlib、sklearn、xgboost、seabon等工具包。
import numpy as np
import pandas as pd
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.special import jn
from IPython.display import display, clear_output
import time
载入以上基础工具包
from sklearn import linear_model
from sklearn import preprocessing
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor
载入以上模型预测工具包
from sklearn.decomposition import PCA,FastICA,FactorAnalysis,SparsePCA
import lightgbm as lgb
import xgboost as xgb
载入以上数据降维处理工具包
from sklearn.model_selection import GridSearchCV,cross_val_score,StratifiedKFold,train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error
载入以上载入以上参数搜索与评价工具包
(2)读入数据(利用pandas工具包读取数据)
Train_data = pd.read_csv(‘used_car_train_20200313.csv’, sep=’ ‘)
TestA_data = pd.read_csv(‘used_car_testA_20200313.csv’, sep=’ ‘)
(3)数据概览
Train_data.head().append(Train_data.tail())查看前后五行数据
Train_data.info() 查看列名及数据类型等
Train_data.columns查看列名
通过 .describe() 可以查看数值特征列的一些统计信息
Train_data.describe()
TestA_data.describe()
(4)缺失值及处理
Train_data.isnull().sum()
Test_data.isnull().sum()
二手车价格预测(基础学习)
可以很明显看出存在缺失项,此处notRepairedDamage 为object类型,需要对它进行单独的显示,才可之其是否有缺省的情况存在:
二手车价格预测(基础学习)
可用Train_data[‘notRepairedDamage’].value_counts()来对其指标值进行统计,发现存在“-”的缺失值
二手车价格预测(基础学习)
Train_data[‘notRepairedDamage’].replace(’-’, np.nan, inplace=True),将“-”用nan进行替换
(5)通过作图了解数据分布及相关性
Y_data = Train_data[‘price’]
plt.figure(1); plt.title(‘Johnson SU’)
sns.distplot(Y_data, kde=False, fit=st.johnsonsu)
plt.figure(2); plt.title(‘Normal’)
sns.distplot(Y_data, kde=False, fit=st.norm)
plt.figure(3); plt.title(‘Log Normal’)
sns.distplot(Y_data, kde=False, fit=st.lognorm)
未完待续。。。。

相关文章:

  • 2021-05-26
  • 2021-11-23
  • 2021-11-24
  • 2022-01-03
  • 2021-07-12
  • 2022-01-04
  • 2021-05-26
  • 2021-10-29
猜你喜欢
  • 2021-07-19
  • 2021-12-17
  • 2022-12-23
  • 2021-06-23
  • 2021-07-15
  • 2021-10-08
  • 2021-05-03
相关资源
相似解决方案