论文题目:Deep & Cross Network for Ad Click Predictions

作者:Ruoxi Wang、Bin Fu、Gang Fu、Mingliang Wang

1 论文要点

该模型是对Wide&Deep模型的一种改进。由于Wide&Deep模型的Wide部分的特征交互需要特征工程,而手工设计特征工程非常的繁琐。
所以作者对Wide部分进行更改,提出了一个Cross Network来自动进行特征之间的交叉,并且网络的时间和空间复杂度都是线性的。通过与Deep部分相结合,构成了深度交叉网络(Deep & Cross Network),简称DCN。

2 数据集

本文使用Criteo数据集进行测试。数据集大小共11GB,包含4100万条数据,它由13列数值特征(Dense Input)和26列类别特征(Sparse Input)组成。其表示如下:

  • Label:标签,表示目标广告点击(1)或未点击(0);
  • I1-I13:13个数值特征,也称为计数特征;
  • C1-C26:26个分类特征(稀疏特征),为了匿名化的目的,对数据进行了脱敏感处理,没法知道每一列的具体含义,这些特性的值被编码散列到32位上;

3 模型架构

论文阅读:Deep & Cross Network for Ad Click Predictions
模型的结构非常简洁,从下往上依次为:Embedding和Stacking层、Cross网络层与Deep网络层并列、输出合并层,得到最终的预测结果。

3.1 Embedding and Stacking Layer

根据模型结构图我们发现,输入的特征分为密集连续型特征和稀疏离散型特征。但大部分特征都为稀疏离散型分类特征,为了输入到网络中,一般将其进行one-hot编码操作,但这样会导致过高的维度特征空间。因此需要Embedding操作将高维稀疏特征转化为低维密集型特征:
论文阅读:Deep & Cross Network for Ad Click Predictions
其中对于某一类稀疏型分类特征(如id),Xembed,i是第i个分类值(id序号)的embedding向量。Wembed,i∈Rne*nv表示该类特征的embedding矩阵,ne表示embedding的隐藏单元,nv表示该类特征的数量(如id的总数)。Xi∈Rnv*1表示某个样本在该特征的二元稀疏向量(如id=1的one-hot向量)。【实质上就是在训练得到的Embedding参数矩阵中找到属于当前样本对应的Embedding向量】

其实绝大多数基于深度学习的推荐模型都需要Embedding操作,参数学习是通过神经网络进行训练。

最后,该层需要将所有的密集型特征与通过embedding转换后的特征进行联合(Stacking):
论文阅读:Deep & Cross Network for Ad Click Predictions

3.2 Cross Network

这是本文最大的创新点为Cross网络(Cross Network),设计该网络的目的是增加特征之间的交互力度。交叉网络由多个交叉层组成,假设第l层交叉层的输出向量为Xl,那么对于第l+1层交叉层输出向量为Xl+1
论文阅读:Deep & Cross Network for Ad Click Predictions
其中Xl,Xl+1∈Rd是第l和l+1交叉层的输出向量,wl,bl∈Rd是权重参数和偏置。并且定义了一个映射函数来拟合残差【这里发现和残差网络的思想有些类似】。可视化结果如下:
论文阅读:Deep & Cross Network for Ad Click Predictions
论文阅读:Deep & Cross Network for Ad Click Predictions
观察交叉网络结构并结合上述例子,可以得到以下结论:

  1. X1中包含了包含了所有的X0的1、2阶特征交互,X2中包含了所有X0,X1的1、2、3阶特征交互,那么Xl+1包含了所有的X0,X1,…,Xl的1—l+2阶特征交互。因此,交叉网络层的叉乘阶数是有限的,第l层特征对应的最高的叉乘阶数为l+1。
  2. Cross网络的参数是共享的。
  3. 计算交叉网络的参数数量。假设交叉层的数量为,特征的维度为,那么总共的参数数量为:
    论文阅读:Deep & Cross Network for Ad Click Predictions
  4. 并且交叉网络的时间和空间复杂度是线性的。相对于深度学习网络,交叉网络的复杂性可以忽略不计。

3.3 Deep Network

该部分由一个全连接的神经网络构成,即MLP。

3.4 Combination Layer

将两个网络的输出进行拼接,并通过简单的Logistic回归完成最后的预测:
论文阅读:Deep & Cross Network for Ad Click Predictions
最后二元分类的代价函数为:
论文阅读:Deep & Cross Network for Ad Click Predictions

4 实验结果

文章中使用全部11GB(包含4100万条)数据。前6天对数据进行训练,并在第7天将数据随机分成相同大小的验证集和测试集。

  • Embeding维度,6*(类别基数)1/4
  • batch_size,512
  • gradient clip norm,100
  • 测试集比例,0.2
  • 交叉网络层数,1-6
  • 深度网络层数,2-5
  • 隐藏单元个数,32-1024
  • 学习率,从0.0001到0.001,增量为0.0001

以上超参数通过网格搜索法进行参数寻优后。得到最终实验结果的Loss为0.4419

5 总结

DCN建立在Wide&Deep模型的基础上,对Wide部分进行了修改,构造了能够自动进行特征交叉的Cross网络,提高了特征交互的能力。

参考文章:
https://mp.weixin.qq.com/s/DkoaMaXhlgQv1NhZHF-7o

相关文章: