Learning Bounds for Importance Weighting

原论文地址:Learning Bounds for Importance Weighting

Abstract

1 Introduction

现实世界中机器学习训练数据和测试数据样本的分布会有偏差。一个常见的修正方法叫做importance weighting,它通过给不同的训练样本的带价值赋予权重来平衡这种偏差。一种常见的权重形式是w(x)=P(x)/Q(x)w(x) = P(x)/Q(x),其中PPQQ分别是测试数据分布和训练样本分布,这样做可以得到泛化误差的无偏估计。但这样做会有一些问题,Figure 1中展示了importance weighting失败的例子。

【论文精读】Learning Bounds for Importance Weighting

目标数据和源数据都是两个相同的高斯分布,但标准差不同,用标准差之比σQ/σP\sigma_Q/\sigma_P表示importance weighting进行训练,当σQ/σP=0.3\sigma_Q/\sigma_P=0.3时表现不好,当σQ/σP=0.7\sigma_Q/\sigma_P=0.7时表现较好(两者分布越接近,误差越小)。许多文献表明importance weighting使用时需要比较谨慎并且强调需要找到收敛范围并且保证通过这种技术是可以学习的。

作者通过标准泛化边界证明,当权重有界时,important weighting可以成功。但这种条件不太实用,作者证明了即使权重不是有界的,在一个相对弱的条件,即权重的二阶矩有界时,也能保证收敛,这个条件与PPQQRenyi熵有关。作者据此探索了其他reweighting的方法。

2 Preliminaries

2.1 Renyi Divergences

Renyi熵可以用来衡量两个分布之间的相关性,公式如下:

【论文精读】Learning Bounds for Importance Weighting

简单变形:

【论文精读】Learning Bounds for Importance Weighting

Importance Weight

PPQQ的importance weight定义为w(x)=P(x)/Q(x)w(x) = P(x)/Q(x),可以得到如下引理及证明(期望是关于QQ的):

【论文精读】Learning Bounds for Importance Weighting

既然是关于Q的,那么期望很容易得到就是1。根据Renyi熵,二阶矩(平方的期望)可以表示如下:

【论文精读】Learning Bounds for Importance Weighting

方差就是平方的期望(二阶矩)减去期望的平方:

【论文精读】Learning Bounds for Importance Weighting

没加weights和加了weights的loss如下:

【论文精读】Learning Bounds for Importance Weighting

Lh(x)L_h(x)表示L(h(x),f(x))L(h(x), f(x)),那么由于非归一化的w(x)w(x)是无偏的,那么:

【论文精读】Learning Bounds for Importance Weighting

下面的引理给出了二阶矩的边界:

【论文精读】Learning Bounds for Importance Weighting

对于α=1\alpha=1,不等式变为:

【论文精读】Learning Bounds for Importance Weighting

证明:

【论文精读】Learning Bounds for Importance Weighting

里面用到两个不等式,其中一个是赫德尔不等式

3 LearningGuarantees-BoundedCase

根据Hoeffding不等式

相关文章:

猜你喜欢
相关资源
相似解决方案