如何最小化 R 中的线性最小二乘函数？答案

【问题标题】：How do I minimize a linear least squares function in R?如何最小化 R 中的线性最小二乘函数？
【发布时间】：2019-06-24 16:38:04
【问题描述】：

我正在阅读 Goodfellow 等人的深度学习。并尝试实现梯度下降，如第 4.5 节示例：线性最小二乘法所示。这是该书硬拷贝中的第 92 页。

可以在https://www.deeplearningbook.org/contents/numerical.html查看算法的详细信息，第 94 页的线性最小二乘的 R 实现。

我尝试在 R 中实现，并且实现的算法收敛于一个向量，但这个向量似乎并没有根据需要最小化最小二乘函数。将 epsilon 添加到有问题的向量中经常会产生小于我的程序输出的最小值的“最小值”。

options(digits = 15)
dim_square = 2 ### set dimension of square matrix
# Generate random vector, random matrix, and 
set.seed(1234) 
A = matrix(nrow = dim_square, ncol = dim_square, byrow = T, rlnorm(dim_square ^ 2)/10)
b = rep(rnorm(1), dim_square)

# having fixed A & B, select X randomly 
x = rnorm(dim_square) # vector length of dim_square--supposed to be arbitrary

f = function(x, A, b){
  total_vector = A %*% x + b # this is the function that we want to minimize
  total = 0.5 * sum(abs(total_vector) ^ 2) # L2 norm squared
  return(total)
}
f(x,A,b)

# how close do we want to get?
epsilon = 0.1
delta = 0.01

value = (t(A) %*% A) %*% x - t(A) %*% b
L2_norm = (sum(abs(value) ^ 2)) ^ 0.5

steps = vector()
while(L2_norm > delta){
  x = x - epsilon * value
  value = (t(A) %*% A) %*% x - t(A) %*% b
  L2_norm = (sum(abs(value) ^ 2)) ^ 0.5
  print(L2_norm)
}

minimum = f(x, A, b)
minimum

minimum_minus = f(x - 0.5*epsilon, A, b)
minimum_minus # less than the minimum found by gradient descent! Why?

在https://www.deeplearningbook.org/contents/numerical.html出现的pdf的第94页上

我试图找到向量 x 的值，以使 f(x) 最小化。但是，正如我的代码中的最小值和 minimum_minus 所示，最小值不是实际最小值，因为它超过了最小值负值。

知道可能是什么问题吗？

【问题讨论】：

第一个链接应该是：deeplearningbook.org/contents/numerical.html
您可以编辑您的问题以更改链接

标签： r algorithm least-squares

【解决方案1】：

Original Problem

求 x 的值使得 Ax - b 的数量最小化等价于求 x 的值使得 Ax - b = 0 或 x = (A^-1)*b。这是因为 L2 范数是欧几里得范数，通常称为距离公式。根据定义，距离不能为负数，使其最小值为零。

这个算法，在实现时，实际上非常接近于估计 x。但是，由于递归减法和四舍五入很快就会遇到下溢问题，导致大量振荡，如下：

Value of L2 Norm as a function of step size

Above algorithm vs. solve function in R

上面我们有 A %% x 后跟 A %% min_x 的结果，其中 x 由实现的算法估计，min_x 由 R 中的 solve 函数估计.

熟悉数值分析的人都知道下溢问题，最好由最有能力解决它的低级库的程序员来解决。

总而言之，该算法似乎按照实现的方式工作。然而，需要注意的重要一点是，并非每个函数都有最小值（想想一条直线），并且还要注意该算法应该只能找到局部最小值，而不是全局最小值。

【讨论】：