【问题标题】：LabelPropagation - How to avoid division by zero?LabelPropagation - 如何避免被零除？
【发布时间】：2019-02-03 02:02:51
【问题描述】：

在使用LabelPropagation时，我经常遇到这个警告（恕我直言，这应该是一个错误，因为它完全无法传播）：

/usr/local/lib/python3.5/dist-packages/sklearn/semi_supervised/label_propagation.py:279：RuntimeWarning：在 true_divide 中遇到无效值 self.label_distributions_ /= 规范化器

所以在尝试了几次 RBF 内核后，我发现参数 gamma 有影响。

编辑：

问题来自these lines：

        if self._variant == 'propagation':
            normalizer = np.sum(
                self.label_distributions_, axis=1)[:, np.newaxis]
            self.label_distributions_ /= normalizer

我不明白 label_distributions_ 怎么可以全为零，尤其是当它的定义是：

self.label_distributions_ = safe_sparse_dot(
graph_matrix, self.label_distributions_)

Gamma 对 graph_matrix 有影响（因为 graph_matrix 是调用内核函数的 _build_graph() 的结果）。好的。但还是。出了点问题

旧帖（编辑前）

我提醒你如何为传播计算图权重：W = exp(-gamma * D), D 数据集所有点之间的成对距离矩阵。

问题是：np.exp(x) 如果 x 非常小，则返回 0.0。
假设我们有两个点i 和j，这样dist(i, j) = 10。

>>> np.exp(np.asarray(-10*40, dtype=float)) # gamma = 40 => OKAY
1.9151695967140057e-174
>>> np.exp(np.asarray(-10*120, dtype=float)) # gamma = 120 => NOT OKAY
0.0

实际上，我不是手动设置伽玛，而是使用this paper（第 2.4 节）中描述的方法。

那么，如何避免这种除以零来获得正确的传播？

我能想到的唯一方法是在每个维度上标准化数据集，但我们会丢失数据集的一些几何/拓扑属性（例如，2x10 的矩形变成 1x1 的正方形） p>

可重现的例子：

在这个例子中，最糟糕的是：即使 gamma = 20，它也会失败。

In [11]: from sklearn.semi_supervised.label_propagation import LabelPropagation

In [12]: import numpy as np

In [13]: X = np.array([[0, 0], [0, 10]])

In [14]: Y = [0, -1]

In [15]: LabelPropagation(kernel='rbf', tol=0.01, gamma=20).fit(X, Y)
/usr/local/lib/python3.5/dist-packages/sklearn/semi_supervised/label_propagation.py:279: RuntimeWarning: invalid value encountered in true_divide
  self.label_distributions_ /= normalizer
/usr/local/lib/python3.5/dist-packages/sklearn/semi_supervised/label_propagation.py:290: ConvergenceWarning: max_iter=1000 was reached without convergence.
  category=ConvergenceWarning
Out[15]: 
LabelPropagation(alpha=None, gamma=20, kernel='rbf', max_iter=1000, n_jobs=1,
         n_neighbors=7, tol=0.01)

In [16]: LabelPropagation(kernel='rbf', tol=0.01, gamma=2).fit(X, Y)
Out[16]: 
LabelPropagation(alpha=None, gamma=2, kernel='rbf', max_iter=1000, n_jobs=1,
         n_neighbors=7, tol=0.01)

In [17]:

【问题讨论】：

也许用阈值编码 RBF 内核以避免返回 0。
但是如果我这样做，d=15 的点的影响将小于 d=100 的 2 点。（类似于 1e-99 对 2*1e-99）
通常我会说降低伽玛值，但这无济于事，因为您可以通过算法找到它。人们倾向于采用 gamme = 1/n_features。 20 对于伽马来说真的很大。我不确定您在进行 LabelPropagation 时是否会碰到它。使用 Gamma
1/n_features 显然不适用于像 sklearn.datasets.make_moons(1000, noise=0.06) 这样的卫星之类的数据集
我认为大于 10 的值非常大，但这当然取决于您的数据。至于 np.exp(x) 对于非常小的 x 为零，试试这个：np.exp(np.asarray(-10*120, dtype=np.float128))

标签： python numpy machine-learning scikit-learn

【解决方案1】：

基本上你在做一个softmax 函数，对吧？

防止softmax上溢/下溢的一般方法是（来自here）

# Instead of this . . . 
def softmax(x, axis = 0):
    return np.exp(x) / np.sum(np.exp(x), axis = axis, keepdims = True)

# Do this
def softmax(x, axis = 0):
    e_x = np.exp(x - np.max(x, axis = axis, keepdims = True))
    return e_x / e_x.sum(axis, keepdims = True)

这将e_x 限定在0 和1 之间，并确保e_x 的一个值始终为1（即元素np.argmax(x)）。这可以防止上溢和下溢（当np.exp(x.max()) 大于或小于float64 可以处理时）。

在这种情况下，由于您无法更改算法，因此我将输入 D 并输入 D_ = D - D.min()，因为这在数值上应该与上述相同，因为 W.max() 应该是 -gamma * D.min()（如你只是在翻转标志）。对D_做你的算法

编辑：

按照下面@PaulBrodersen 的建议，您可以基于sklearn 实现here 构建一个“安全”的rbf 内核：

def rbf_kernel_safe(X, Y=None, gamma=None): 

      X, Y = sklearn.metrics.pairwise.check_pairwise_arrays(X, Y) 
      if gamma is None: 
          gamma = 1.0 / X.shape[1] 

      K = sklearn.metrics.pairwise.euclidean_distances(X, Y, squared=True) 
      K *= -gamma 
      K -= K.max()
      np.exp(K, K)    # exponentiate K in-place 
      return K

然后在你的传播中使用它

LabelPropagation(kernel = rbf_kernel_safe, tol = 0.01, gamma = 20).fit(X, Y)

不幸的是我只有v0.18，它不接受LabelPropagation的用户定义内核函数，所以我无法测试它。

EDIT2：

检查您的来源以了解为什么您有如此大的 gamma 值让我想知道您是否使用了 gamma = D.min()/3，这是不正确的。定义是sigma = D.min()/3 而sigma 在w 中的定义是

w = exp(-d**2/sigma**2)  # Equation (1)

这将使正确的gamma 值1/sigma**2 或9/D.min()**2

【讨论】：

为什么不应该改变实现？您可以从LabelPropagation 继承，并覆盖_get_kernel 以使用您的自定义rbf_kernel，其中您在sklearn 实现中的line 843 之后添加一行K -= K.max()。免责声明：尚未对此进行任何测试。
感谢编辑，我正在考虑做自己的内核。别担心，我使用了 gamma = 9/D.min()**2，如果 D.min() 则很大
老实说，该论文中gamma 的启发式方法似乎更像是适用于给定数据集的 WAG。 gamma >>1 很快就会得到一个二进制 label_distributions 矩阵（只有 1 和 0），如果任何行被驱动为全 0（因为一点与其他点相距甚远），您的方法将失败，因为您已经描述。
今天我有时间尝试，修改后的内核允许我使用比经典 rbf 内核更大的 gamma。谢谢！