Computational Optimal Transport笔记——第二章（2）

符号说明
耦合矩阵 coupling matrix： $P \in R^{n \times m}_{+}$ ，其中 $P_{i,j}$ 代表从 bin $i$ 移动到 bin $j$ （或者在离散情况下从 $x_i$ 移动到 $y_j$ ）的质量。
Admissible coupling：

(行和为 $a$ 向量，列和为 $b$ 向量的矩阵)
$\mathcal{L_c}(\alpha, \beta)$ ：在离散测度下的 Kantorovich problem。

在任意测度下的 Kantorovich problem

p-Wasserstein distance：

在任意测度中的 p-Wasserstein distance：

2. 理论基础

2.3 Kantorovich Relaxation

Kantorovich
Kantorovich 的核心思想是放松交通的确定性，即一个源点 $x_i$ 只能被分配到另一个点或位置 $y_{\sigma_i}$ 或者 $T(x_i)$ 。Kantorovich 建议在任何地点的质量有可能被分配到几个地点。即Kantorovich 不再认为质量运输应该是确定性的，而是考虑一种概率运输，这种概率运输允许质量从一个源头分裂到几个目标。
不是使用排列 $\sigma$ 或者 map $T$ ，而是使用 coupling matix $P \in R^{n \times m}_{+}$ ，其中 $P_{i,j}$ 代表从 bin $i$ 移动到 bin $j$ （或者在离散情况下从 $x_i$ 移动到 $y_j$ ）的质量。
Admissible coupling的特征有：
Computational Optimal Transport笔记——第二章（2）

【行和为 $a$ 向量，列和为 $b$ 向量】
可以看出，矩阵集合 $U(a,b)$ 被 $n+m$ 个等式约束，是一个凸多面体。

Kantorovich 的对称性
Kantorovich’s relaxed formulation是对称的，即耦合矩阵 $P$ 在 $U(a,b)$ 中当且仅当 $P^{T}$ 在 $U(b,a)$ 中。

Kantorovich’s optimal transport problem
Kantorovich’s optimal transport problem是
Computational Optimal Transport笔记——第二章（2）
这是一个线性规划问题，与此类程序的通常情况一样，它的最佳解决方案不一定是惟一的。

Remark 2.10 （矿山和工厂）略

Permutation matrices as couplings 对于排列 $\sigma \in Perm(n)$ ，我们将对应的排列矩阵 $P_{\sigma}$ 写为
Computational Optimal Transport笔记——第二章（2）
此时有

这表明assigment problem可以写为Kantorovich problem，当 $P$ 的约束为排列矩阵：

可以计算得， $P_{\sigma} \in U(\frac{1_n}{n}, \frac{1_n}{n})$ ，但是不是在 $U(\frac{1_n}{n}, \frac{1_n}{n})$ 中所有的矩阵都是排列矩阵，例如 $1_n 1_n^{T}/n^2$ 。因此 $<C,P>$ 更小
Computational Optimal Transport笔记——第二章（2）
接下来的定理说明两个问题有相同的最小值，也就是说可以找到一个permutation matrix最小化当 $a=b=1_n/n$ 下 Kantorovich problem。

Remark 2.11（在离散测度下的 Kantorovich problem）对于离散测度 $\alpha,\beta$ ，将于 $\alpha, \beta$ 的支撑集中的点两两之间的cost记入矩阵 $C$ ， $C_{i,j}\xlongequal{def.} c(x_i,y_j)$ ，定义

$a,b$ 是支撑集中的概率权重向量。

Remark 2.12（使用 optimal assigments and couplings）OT问题的应用。
可作为阅读文献

Remark 2.13（任意测度下的 Kantorovich problem）在乘积空间上的联合分布中考虑 couplings

在离散测度下

在一般情况下，mass conservation constraint可以被写为联合概率分布下的 marginal constraint

定义投影

KaTeX parse error: Expected '}', got '#' at position 14: P_{\mathcal{X#̲}}和KaTeX parse error: Expected '}', got '#' at position 14: P_{\mathcal{Y#̲}} 是投影的 push-forward。
这些 marginal constraints等价于

Kantorovich问题（2.11）可以一般化为

这是一个在测度空间上的无限维的线性规划问题。如果 $(\mathcal{X,Y})$ 是紧空间， $c$ 是连续函数，这个问题总是有解。

Computational Optimal Transport笔记——第二章（2）

Remark 2.14（概率解释）Kantorovich’s problem可以通过随机变量解释，问题（2.15）可以等价为

其中 $(X,Y)$ 是在 $\mathcal{X \times Y}$ 上的随机变量，并且 $\mathcal{X}~\alpha$ , $\mathcal{Y}~\beta$

2.4 Optimal Transport 的度量性质

实际上，OT可以被理解为一种将点与点之间的地面距离提升到直方图或度量值之间距离的标准方法。我们考虑这种情况 “ground metric” matrix $C$ 是固定的，代表 bins 之间的可替换 cost，并且在我们希望比较的 histogram 间共享。接下来的 Proposition 说明 OT 提供了在 bins 支撑下的 histogram 之间的合理距离。

Proposition 2.2 我们假设 $n=m$ ，对于一些 $p \geq 1$ ， $C=D^p=(D_{i,j}^p)_{i,j} \in R^{n \times n}$ ，其中 $D \in R^{n \times n}_{+}$ 是 $[n]$ 上的距离，即
Computational Optimal Transport笔记——第二章（2）
令

定义了在 $\Sigma_n$ 上的 p-Wasserstein distance。可证明 $W_p$ 是对称、正定、满足三角不等式

Remark 2.15（在 $0<p \leq 1$ 的情况）注意到如果 $0<p \leq 1$ ， $D^{p}$ 是 itself distance。

根据 Proposition 2.2 和 Remark 2.15，当 $p \geq 1$ 时， $W_{p}(a,b)$ 是单纯形 $a,b$ 之间的距离。当 $p \leq 1$ 时， $W_p(a,b)^p$ 是纯形 $a,b$ 之间的距离。

Remark 2.16（Wasserstein distance 的应用）

Remark 2.17（在测度间的 Wasserstein distance）Proposition 2.2 可以被一般化为处理任意测度。
Proposition 2.3 假设 $\mathcal{X=Y}, p\geq 1, c(x,y)=d(x,y)^{p}$ ，其中 $d$ 是 $\mathcal{X}$ 上的距离，即

则在 $\mathcal{X}$ 上的 p- Wasserstrin distance 可以表示为

可证明 $W_p$ 具有对称、非负和三角不等式

Remark 2.18（几何直觉和弱收敛）Wasserstein距离最重要的一个性质就是它是一个弱距离，即它允许比较支撑集不重叠的奇异分布(例如，离散分布)并量化两个分布之间的空间位移。
在经典的距离（或收敛）不会在离散分布中定义（L2范数只能应用于相对于基础测度具有密度的连续测度，而离散L2范数要求位置(xi, yj)取预先确定的离散集中的值才能正常工作）。
鲜明对比的是，对于任何 $p>0$ ， $\mathcal{W_{p}^{p}}(\delta_{x},\delta_{y})=d(x,y)$ 。
注意到 $\mathcal{U}(\delta_x,\delta_y)=\{\delta_{x,y}\}$ ，因此Kantorovich问题有唯一可行解， $\mathcal{W_{p}^{p}}(\delta_{x},\delta_{y})$ ,
$(d(x,y)^{p})^{\frac{1}{p}}=d(x,y)$ 。这说明如果 $x\to y$ , $\mathcal{W_{p}}(\delta_{x},\delta_{y}) \to 0$ 。这说明 $\mathcal{W_p}$ 是一种弱收敛的方式。
定义 2.2（弱收敛） $\mathcal{X}$ 为紧区域，在 $\mathcal{M_{+}^{1}(X)}$ 中 $(\alpha_k)_{k}$ 弱收敛于 $\alpha$ 当且仅当对于任何连续函数 $g \in \mathcal{C(X)}$ ， $\int_{\mathcal{X}} g d\alpha_k \to \int _{\mathcal{X}} g d\alpha$
记为 $\alpha_k \rightharpoonup \alpha$ 。
如果对于非紧区域，需要对 $g$ 加上另外的条件。这个弱收敛的概念对应于随机向量法则中的收敛。
可以证明弱收敛和 $\mathcal{W_p}(\alpha_k, \alpha) \to 0$ 是等价的。（对于无界度量空间，将矩收敛到p阶。）

Remark 2.19（平移）在欧几里得空间 $\mathcal{X}=R^d$ ，ground cost $c(x,y)=\Vert x-y \Vert^2$ 的 Wasserstein distance的特征是解析为平移，即 $T_{\tau}: x \mapsto x-\tau$ 为平移算子，有
$\mathcal{W}_2(T_{\tau \#}\alpha,T_{\tau' \#}\beta)^2=\mathcal{W_2}(\alpha, \beta)^2-2<\tau-\tau', m_{\alpha}- m_{\beta}>+\Vert \tau-\tau' \Vert$
其中 $m_{\alpha} \xlongequal{def.} \int_{\mathcal{X}} x d\alpha(x) \in R^d$ 是 $\alpha$ 的均值。特别，这个距离可以分解为
$\mathcal{W_2}(\alpha, \beta)^2= \mathcal{W_2}(\bar{\alpha}, \bar{\beta})^2+\Vert m_{\alpha}-m_{\beta} \Vert^2$
其中 $(\bar{\alpha},\bar{\beta})$ 是“居中的”零平均度量 $\bar{\alpha}=T_{m_{\alpha}\#}\alpha$

Remark 2.20（当 $p=+\infty$ 的情况）当 $p \to +\infty$ 时 $\mathcal{W}_p^p$ 为
相比于 $p<+\infty$ 的情况，这是一个非凸优化问题，难于数值求解和理论研究。 $\mathcal{W}_{\infty}$ 距离与在 $(\alpha, \beta)$ 支撑下的Hausdorff距离有关。