1、如何度量两个分布的相似度
kl散度,分布的对数差异的数学期望(两个分布在所有取值上的加权平均)。
2、极大似然估计可以看作最小化模型分布的kl散度距离等价。
使得对数似然函数最大>等价转换(引入负号)>引入常数项>相除形式>kl散度定义
3 、kl散度作为损失函数的模式塌陷问题:因为p(x)为其中一个分布的加权,所以不具有对称性,假设p(x) q(x)一个为单峰、一个为双峰,用双峰逼近的时容易忽视其中一个。通常改用js散度。(假设10个模式,有可能只生成其中几种模式,丢失其他模式)
4、gan的损失函数改进之一:加log。(虽然该方法在wgan中被批判),把目标函数的值域拉大。
5、在最优判别器下,gan定义的生成器loss可等价变换为最小化真实分布与生成分布之间的js散度。
(真、假样本混合可以找出真的样本)
6、推土机距离(绝妙,纳什平衡依据)(最优路径规划最小消耗)(接近于连续,js、kl有突变、空间不要有悬崖)
1)取log的问题 导致没有上界;判别器参数绝对值截断(lipschitz连续)
2)解决训练不稳定 (dc gan碰巧平衡生成、判别器)判别器过快最优,梯度为0
3)解决模型崩溃,生成多样性。
4)gan最优判别器下,p(r)和g(g) 真实的分布和造出来的分布可能没有重合,梯度消失