[解读] You Only Train Once Loss-Conditional Training of Deep Networks

传统的机器学习问题中, 损失函数往往是多个损失项的线性组合, 而权重系数却需要人工提前确定, 这就会带来一些问题, 比如这些权重如何影响最终的训练结果是不得而知的, 如何选择一组好的权重也是个困难的问题. 本文提出一种方法来解决这个问题, 通过对模型做简单的改动, 随机采样权重系数来参与模型训练. 通过理论分析证明这个方法能够实现与传统方法相当的性能, 并且没有需要人工确定权重的困扰.

论文链接: https://openreview.net/forum?id=HyxY6JHKwr

本文的方法

考虑一个传统的监督学习问题的优化目标:
$\boldsymbol{\theta}_{\boldsymbol{\lambda}}^{*}=\underset{\boldsymbol{\theta}}{\arg \min } \mathbb{E}_{\boldsymbol{x}, \boldsymbol{y} \sim P_{\boldsymbol{x}, \boldsymbol{y}}} \mathcal{L}(\boldsymbol{y}, F(\boldsymbol{x}, \boldsymbol{\theta}), \boldsymbol{\lambda}).$
其中, $\boldsymbol{x}$ 是训练样本, $\boldsymbol{y}$ 是标签或期望值, $F(\boldsymbol{x}, \boldsymbol{\theta})$ 是要训练的模型, $\boldsymbol{\theta}$ 是要训练的参数, $\boldsymbol{\lambda}$ 是各个损失子项的权重向量, 即:

$\mathcal{L}(\cdot, \cdot, \boldsymbol{\lambda})=\sum_{i} \lambda_{i} \mathcal{L}^{i}(\cdot, \cdot)$

传统方法下 $\boldsymbol{\lambda}$ 是需要在训练前由人工确定的. 本文针对 $\boldsymbol{\lambda}$ 取值所做出的改进为:
$\boldsymbol{\theta}^{*}=\underset{\boldsymbol{\theta}}{\arg \min } \mathbb{E}_{\boldsymbol{\lambda} \sim P_{\boldsymbol{\lambda}}} \mathbb{E}_{\boldsymbol{x}, \boldsymbol{y} \sim P_{\boldsymbol{x}, \boldsymbol{y}}} \mathcal{L}\left(\boldsymbol{y}, F_{c}(\boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\lambda}), \boldsymbol{\lambda}\right).$
也就是从分布 $P_{\boldsymbol{\lambda}}$ 中采样 $\boldsymbol{\lambda}$ 来进行训练. 作者选择对数均匀分布 (log-uniform distribution) 来采样, 这个分布也是机器学习中常用的用于采样超参数的分布 (Bergstra & Bengio, 2012).

另外注意到一点, 模型 $F_c$ 也与传统的模型有所不同, 这是为了使得损失参数 $\boldsymbol{\lambda}$ 能够对模型权重有所影响. 具体来说, 本文研究了包含卷积层的模型, 对每个特征图按照通道做一个仿射变换, 变换的参数 $\boldsymbol{\sigma}, \boldsymbol{\mu}$ 是通过 $\boldsymbol{\lambda}$ 来生成的, 也就是
$\tilde{f}_{i j k}=\sigma_{k} f_{i j k}+\mu_{k}, \quad \boldsymbol{\sigma}=M_{\sigma}(\boldsymbol{\lambda}), \quad \boldsymbol{\mu}=M_{\mu}(\boldsymbol{\lambda}).$
其中 $f$ 是指特征图, $M$ 是一个多层感知器用于生成仿射变换的参数. $k$ 是特征图通道的标号. $i,j$ 是每个特征图的二维坐标.

文中给出命题证明在网络容量无穷大的情况下, 改进后的模型能够达到与原模型相当的效果, 并且省去了需要确定损失参数的麻烦.

[解读] You Only Train Once Loss-Conditional Training of Deep Networks

参考

Sylvestre-Alvise Rebuffi, Hakan Bilen, and Andrea Vedaldi. Learning multiple visual domains with residual adapters. In NeurIPS, 2017.
Arun Mallya, Dillon Davis, and Svetlana Lazebnik. Piggyback: Adapting a single network to multiple tasks by learning to mask weights. In ECCV, 2018.
Romain Brault, Alex Lambert, Zoltán Szabó, Maxime Sangnier, and Florence d’Alché-Buc. Infinite task learning in rkhss. In AISTATS, 2019.
James Bergstra and Yoshua Bengio. Random search for hyper-parameter optimization. JMLR, 13, 2012.

补充

对数分布

通常用于取值范围很广的分布.

[解读] You Only Train Once Loss-Conditional Training of Deep Networks

The probability density function (pdf) of the reciprocal distribution is
$f(x ; a, b)=\frac{1}{x\left[\log _{e}(b)-\log _{e}(a)\right]} \quad \text { for } a \leq x \leq b \text { and } a>0$

Here, $a$ and $b$ are the parameters of the distribution, which are the lower and upper bounds of the support, and $\log _{e}$ is the natural log function (the logarithm to base $e$ ). The cumulative distribution function is
$F(x ; a, b)=\frac{\log _{e}(x)-\log _{e}(a)}{\log _{e}(b)-\log _{e}(a)} \quad \text { for } a \leq x \leq b$

相关的工作

本文的方法

参考

补充