论文阅读：Deep & Cross Network for Ad Click Predictions

论文题目：Deep & Cross Network for Ad Click Predictions

作者：Ruoxi Wang、Bin Fu、Gang Fu、Mingliang Wang

1 论文要点

该模型是对Wide&Deep模型的一种改进。由于Wide&Deep模型的Wide部分的特征交互需要特征工程，而手工设计特征工程非常的繁琐。
所以作者对Wide部分进行更改，提出了一个Cross Network来自动进行特征之间的交叉，并且网络的时间和空间复杂度都是线性的。通过与Deep部分相结合，构成了深度交叉网络（Deep & Cross Network），简称DCN。

2 数据集

本文使用Criteo数据集进行测试。数据集大小共11GB，包含4100万条数据，它由13列数值特征（Dense Input）和26列类别特征（Sparse Input）组成。其表示如下：

Label：标签，表示目标广告点击（1）或未点击（0）；
I1-I13：13个数值特征，也称为计数特征；
C1-C26：26个分类特征（稀疏特征），为了匿名化的目的，对数据进行了脱敏感处理，没法知道每一列的具体含义，这些特性的值被编码散列到32位上；

3 模型架构

论文阅读：Deep & Cross Network for Ad Click Predictions
模型的结构非常简洁，从下往上依次为：Embedding和Stacking层、Cross网络层与Deep网络层并列、输出合并层，得到最终的预测结果。

3.1 Embedding and Stacking Layer

根据模型结构图我们发现，输入的特征分为密集连续型特征和稀疏离散型特征。但大部分特征都为稀疏离散型分类特征，为了输入到网络中，一般将其进行one-hot编码操作，但这样会导致过高的维度特征空间。因此需要Embedding操作将高维稀疏特征转化为低维密集型特征：
论文阅读：Deep & Cross Network for Ad Click Predictions
其中对于某一类稀疏型分类特征（如id），X_embed,i是第i个分类值（id序号）的embedding向量。W_embed,i∈R^ne*nv表示该类特征的embedding矩阵，n_e表示embedding的隐藏单元，n_v表示该类特征的数量（如id的总数）。X_i∈R^nv*1表示某个样本在该特征的二元稀疏向量（如id=1的one-hot向量）。【实质上就是在训练得到的Embedding参数矩阵中找到属于当前样本对应的Embedding向量】

其实绝大多数基于深度学习的推荐模型都需要Embedding操作，参数学习是通过神经网络进行训练。

最后，该层需要将所有的密集型特征与通过embedding转换后的特征进行联合（Stacking）：
论文阅读：Deep & Cross Network for Ad Click Predictions

3.2 Cross Network

这是本文最大的创新点为Cross网络（Cross Network），设计该网络的目的是增加特征之间的交互力度。交叉网络由多个交叉层组成，假设第l层交叉层的输出向量为X_l，那么对于第l+1层交叉层输出向量为X_l+1：
论文阅读：Deep & Cross Network for Ad Click Predictions
其中X_l,X_l+1∈R^d是第l和l+1交叉层的输出向量，w_l,b_l∈R^d是权重参数和偏置。并且定义了一个映射函数来拟合残差【这里发现和残差网络的思想有些类似】。可视化结果如下：

观察交叉网络结构并结合上述例子，可以得到以下结论：

X₁中包含了包含了所有的X₀的1、2阶特征交互，X₂中包含了所有X₀,X₁的1、2、3阶特征交互，那么X_l+1包含了所有的X₀,X₁,…,X_l的1—l+2阶特征交互。因此，交叉网络层的叉乘阶数是有限的，第l层特征对应的最高的叉乘阶数为l+1。
Cross网络的参数是共享的。
计算交叉网络的参数数量。假设交叉层的数量为，特征的维度为，那么总共的参数数量为：
并且交叉网络的时间和空间复杂度是线性的。相对于深度学习网络，交叉网络的复杂性可以忽略不计。

3.3 Deep Network

该部分由一个全连接的神经网络构成，即MLP。

3.4 Combination Layer

将两个网络的输出进行拼接，并通过简单的Logistic回归完成最后的预测：
论文阅读：Deep & Cross Network for Ad Click Predictions
最后二元分类的代价函数为：

4 实验结果

文章中使用全部11GB（包含4100万条）数据。前6天对数据进行训练，并在第7天将数据随机分成相同大小的验证集和测试集。

Embeding维度，6*(类别基数)^1/4
batch_size，512
gradient clip norm，100
测试集比例，0.2
交叉网络层数，1-6
深度网络层数，2-5
隐藏单元个数，32-1024
学习率，从0.0001到0.001，增量为0.0001

以上超参数通过网格搜索法进行参数寻优后。得到最终实验结果的Loss为0.4419

5 总结

DCN建立在Wide&Deep模型的基础上，对Wide部分进行了修改，构造了能够自动进行特征交叉的Cross网络，提高了特征交互的能力。

参考文章：
https://mp.weixin.qq.com/s/DkoaMaXhlgQv1NhZHF-7o