【问题标题】:LabelPropagation - How to avoid division by zero?LabelPropagation - 如何避免被零除?
【发布时间】:2019-02-03 02:02:51
【问题描述】:

在使用LabelPropagation时,我经常遇到这个警告(恕我直言,这应该是一个错误,因为它完全无法传播):

/usr/local/lib/python3.5/dist-packages/sklearn/semi_supervised/label_propagation.py:279:RuntimeWarning:在 true_divide 中遇到无效值 self.label_distributions_ /= 规范化器

所以在尝试了几次 RBF 内核后,我发现参数 gamma 有影响。

编辑:

问题来自these lines

        if self._variant == 'propagation':
            normalizer = np.sum(
                self.label_distributions_, axis=1)[:, np.newaxis]
            self.label_distributions_ /= normalizer

我不明白 label_distributions_ 怎么可以全为零,尤其是当它的定义是:

self.label_distributions_ = safe_sparse_dot(
graph_matrix, self.label_distributions_)

Gamma 对 graph_matrix 有影响(因为 graph_matrix 是调用内核函数的 _build_graph() 的结果)。好的。但还是。出了点问题

旧帖(编辑前)

我提醒你如何为传播计算图权重:W = exp(-gamma * D), D 数据集所有点之间的成对距离矩阵。

问题是:np.exp(x) 如果 x 非常小,则返回 0.0
假设我们有两个点ij,这样dist(i, j) = 10

>>> np.exp(np.asarray(-10*40, dtype=float)) # gamma = 40 => OKAY
1.9151695967140057e-174
>>> np.exp(np.asarray(-10*120, dtype=float)) # gamma = 120 => NOT OKAY
0.0

实际上,我不是手动设置伽玛,而是使用this paper(第 2.4 节)中描述的方法。

那么,如何避免这种除以零来获得正确的传播?

我能想到的唯一方法是在每个维度上标准化数据集,但我们会丢失数据集的一些几何/拓扑属性(例如,2x10 的矩形变成 1x1 的正方形) p>


可重现的例子:

在这个例子中,最糟糕的是:即使 gamma = 20,它也会失败。

In [11]: from sklearn.semi_supervised.label_propagation import LabelPropagation

In [12]: import numpy as np

In [13]: X = np.array([[0, 0], [0, 10]])

In [14]: Y = [0, -1]

In [15]: LabelPropagation(kernel='rbf', tol=0.01, gamma=20).fit(X, Y)
/usr/local/lib/python3.5/dist-packages/sklearn/semi_supervised/label_propagation.py:279: RuntimeWarning: invalid value encountered in true_divide
  self.label_distributions_ /= normalizer
/usr/local/lib/python3.5/dist-packages/sklearn/semi_supervised/label_propagation.py:290: ConvergenceWarning: max_iter=1000 was reached without convergence.
  category=ConvergenceWarning
Out[15]: 
LabelPropagation(alpha=None, gamma=20, kernel='rbf', max_iter=1000, n_jobs=1,
         n_neighbors=7, tol=0.01)

In [16]: LabelPropagation(kernel='rbf', tol=0.01, gamma=2).fit(X, Y)
Out[16]: 
LabelPropagation(alpha=None, gamma=2, kernel='rbf', max_iter=1000, n_jobs=1,
         n_neighbors=7, tol=0.01)

In [17]: 

【问题讨论】:

  • 也许用阈值编码 RBF 内核以避免返回 0。
  • 但是如果我这样做,d=15 的点的影响将小于 d=100 的 2 点。 (类似于 1e-99 对 2*1e-99)
  • 通常我会说降低伽玛值,但这无济于事,因为您可以通过算法找到它。人们倾向于采用 gamme = 1/n_features。 20 对于伽马来说真的很大。我不确定您在进行 LabelPropagation 时是否会碰到它。使用 Gamma
  • 1/n_features 显然不适用于像 sklearn.datasets.make_moons(1000, noise=0.06) 这样的卫星之类的数据集
  • 我认为大于 10 的值非常大,但这当然取决于您的数据。至于 np.exp(x) 对于非常小的 x 为零,试试这个:np.exp(np.asarray(-10*120, dtype=np.float128))

标签: python numpy machine-learning scikit-learn


【解决方案1】:

基本上你在做一个softmax 函数,对吧?

防止softmax上溢/下溢的一般方法是(来自here

# Instead of this . . . 
def softmax(x, axis = 0):
    return np.exp(x) / np.sum(np.exp(x), axis = axis, keepdims = True)

# Do this
def softmax(x, axis = 0):
    e_x = np.exp(x - np.max(x, axis = axis, keepdims = True))
    return e_x / e_x.sum(axis, keepdims = True)

这将e_x 限定在0 和1 之间,并确保e_x 的一个值始终为1(即元素np.argmax(x))。这可以防止上溢和下溢(当np.exp(x.max()) 大于或小于float64 可以处理时)。

在这种情况下,由于您无法更改算法,因此我将输入 D 并输入 D_ = D - D.min(),因为这在数值上应该与上述相同,因为 W.max() 应该是 -gamma * D.min()(如你只是在翻转标志)。对D_做你的算法

编辑:

按照下面@PaulBrodersen 的建议,您可以基于sklearn 实现here 构建一个“安全”的rbf 内核:

def rbf_kernel_safe(X, Y=None, gamma=None): 

      X, Y = sklearn.metrics.pairwise.check_pairwise_arrays(X, Y) 
      if gamma is None: 
          gamma = 1.0 / X.shape[1] 

      K = sklearn.metrics.pairwise.euclidean_distances(X, Y, squared=True) 
      K *= -gamma 
      K -= K.max()
      np.exp(K, K)    # exponentiate K in-place 
      return K 

然后在你的传播中使用它

LabelPropagation(kernel = rbf_kernel_safe, tol = 0.01, gamma = 20).fit(X, Y)

不幸的是我只有v0.18,它不接受LabelPropagation的用户定义内核函数,所以我无法测试它。

EDIT2:

检查您的来源以了解为什么您有如此大的 gamma 值让我想知道您是否使用了 gamma = D.min()/3,这是不正确的。定义是sigma = D.min()/3sigmaw 中的定义是

w = exp(-d**2/sigma**2)  # Equation (1)

这将使正确的gamma1/sigma**29/D.min()**2

【讨论】:

  • 为什么不应该改变实现?您可以从LabelPropagation 继承,并覆盖_get_kernel 以使用您的自定义rbf_kernel,其中您在sklearn 实现中的line 843 之后添加一行K -= K.max()。免责声明:尚未对此进行任何测试。
  • 感谢编辑,我正在考虑做自己的内核。别担心,我使用了 gamma = 9/D.min()**2,如果 D.min() 则很大
  • 老实说,该论文中gamma 的启发式方法似乎更像是适用于给定数据集的 WAG。 gamma >>1 很快就会得到一个二进制 label_distributions 矩阵(只有 1 和 0),如果任何行被驱动为全 0(因为一点与其他点相距甚远),您的方法将失败,因为您已经描述。
  • 今天我有时间尝试,修改后的内核允许我使用比经典 rbf 内核更大的 gamma。谢谢!
猜你喜欢
  • 1970-01-01
  • 2013-07-14
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多