3.数据提取

  • 目的:建立因果关系模型
  • 数据提取的时候要对数据有一定的认识,不能是相关而应该是因果(区分相关关系和因果关系),预测的变量x要在被预测变量y之前取得

相关关系:一个小孩子身高的长高速度和GDP增长的速度就可以做相关关系,但这明显没有什么关系。

因果关系:家庭收入和全国GDP总量,这就明显具有一定的因果关系。
Pyspark+tensorflow-信用贷款数据分析实战(三)——数据提取
细分了特征变量之后,就有了下面的模型框架:
Pyspark+tensorflow-信用贷款数据分析实战(三)——数据提取

观察窗口(历史)看解释变量:

  • 如果是静态变量可以任意提取因为不管它在历史还是未来都不变;
  • 如果是时点变量可以提取放贷前(红蓝分界线)任意时间点的数据,例如余额,资产收入,资产支出等;
  • 如果是区间变量可以提取放贷日前一年或者前两年的数据,例如平均账户余额,平均账户余额的增长率

这就模拟了放贷人员在放贷之前的审批准则(能够看到客户的)

预测窗口(未来)看被解释变量y:

  • 是否拖欠贷款

观察窗口和预测窗口提取数据逻辑要符合实际情况,这样设计的窗口才能得到可用的有价值的模型。

例如:有些股票预测模型,买之前预测的很准,买之后准确率就下降了,这就是因为没有分清x是什么类型的变量,取的是所有时段的,导致预测与实际情况不符

如需数据:请添加QQ1240929749,备注:csdn数据

相关文章:

  • 2021-11-15
  • 2022-12-23
  • 2021-08-18
  • 2021-05-17
  • 2021-12-22
  • 2021-08-11
  • 2021-12-18
猜你喜欢
  • 2021-07-27
  • 2021-09-29
  • 2021-07-10
  • 2021-07-07
  • 2021-05-20
  • 2022-12-23
  • 2021-03-31
相关资源
相似解决方案