Learning Bounds for Importance Weighting
原论文地址:Learning Bounds for Importance Weighting
Abstract
1 Introduction
现实世界中机器学习训练数据和测试数据样本的分布会有偏差。一个常见的修正方法叫做importance weighting,它通过给不同的训练样本的带价值赋予权重来平衡这种偏差。一种常见的权重形式是,其中和分别是测试数据分布和训练样本分布,这样做可以得到泛化误差的无偏估计。但这样做会有一些问题,Figure 1中展示了importance weighting失败的例子。
目标数据和源数据都是两个相同的高斯分布,但标准差不同,用标准差之比表示importance weighting进行训练,当时表现不好,当时表现较好(两者分布越接近,误差越小)。许多文献表明importance weighting使用时需要比较谨慎并且强调需要找到收敛范围并且保证通过这种技术是可以学习的。
作者通过标准泛化边界证明,当权重有界时,important weighting可以成功。但这种条件不太实用,作者证明了即使权重不是有界的,在一个相对弱的条件,即权重的二阶矩有界时,也能保证收敛,这个条件与和的Renyi熵有关。作者据此探索了其他reweighting的方法。
2 Preliminaries
2.1 Renyi Divergences
Renyi熵可以用来衡量两个分布之间的相关性,公式如下:
简单变形:
Importance Weight
和的importance weight定义为,可以得到如下引理及证明(期望是关于的):
既然是关于Q的,那么期望很容易得到就是1。根据Renyi熵,二阶矩(平方的期望)可以表示如下:
方差就是平方的期望(二阶矩)减去期望的平方:
没加weights和加了weights的loss如下:
用表示,那么由于非归一化的是无偏的,那么:
下面的引理给出了二阶矩的边界:
对于,不等式变为:
证明:
里面用到两个不等式,其中一个是赫德尔不等式。
3 LearningGuarantees-BoundedCase
根据Hoeffding不等式,