如何估计 R 中散点图的最佳拟合函数？答案

【问题标题】：How to estimate the best fitting function to a scatter plot in R?如何估计 R 中散点图的最佳拟合函数？
【发布时间】：2013-02-09 03:33:46
【问题描述】：

我有两个变量的散点图，例如：

x<-c(0.108,0.111,0.113,0.116,0.118,0.121,0.123,0.126,0.128,0.131,0.133,0.136)

y<-c(-6.908,-6.620,-5.681,-5.165,-4.690,-4.646,-3.979,-3.755,-3.564,-3.558,-3.272,-3.073)

我想找到更适合这两个变量之间关系的函数。

确切地说，我想比较三个模型的拟合：linear、exponential 和 logarithmic。

我正在考虑将每个函数拟合到我的值，计算每种情况下的可能性并比较 AIC 值。

但我真的不知道如何或从哪里开始。非常感谢任何可能的帮助。

非常感谢您。

蒂娜。

【问题讨论】：

您是否尝试过使用 rgp 包进行符号回归？如果您包含一些示例数据，我们可以尝试一下。更多细节在这里：rsymbolic.org/projects/rgp/wiki/Symbolic_Regression
我们必须去这里有多基本？你读过里面的数据吗？你做过探索性的情节吗？你至少知道如何用lm 包拟合线性模型吗？我们有点卡在没有更多的水平上......
非常感谢，我已经添加了一个示例，我对 R 的基础知识非常了解，但是在拟合比回归更复杂的模型时，我是新手。

标签： r curve-fitting model-fitting

【解决方案1】：

我会从一个解释性的情节开始，像这样：

x<-c(0.108,0.111,0.113,0.116,0.118,0.121,0.123,0.126,0.128,0.131,0.133,0.136)
y<-c(-6.908,-6.620,-5.681,-5.165,-4.690,-4.646,-3.979,-3.755,-3.564,-3.558,-3.272,-3.073)
dat <- data.frame(y=y,x=x)
library(latticeExtra)
library(grid)
xyplot(y ~ x,data=dat,par.settings = ggplot2like(),
       panel = function(x,y,...){
         panel.xyplot(x,y,...)
       })+
  layer(panel.smoother(y ~ x, method = "lm"), style =1)+  ## linear
  layer(panel.smoother(y ~ poly(x, 3), method = "lm"), style = 2)+  ## cubic
  layer(panel.smoother(y ~ x, span = 0.9),style=3)  + ### loeess
  layer(panel.smoother(y ~ log(x), method = "lm"), style = 4)  ## log

看起来你需要一个立方体模型。

 summary(lm(y~poly(x,3),data=dat))

Residual standard error: 0.1966 on 8 degrees of freedom
Multiple R-squared: 0.9831, Adjusted R-squared: 0.9767 
F-statistic: 154.8 on 3 and 8 DF,  p-value: 2.013e-07

【讨论】：

+1 很好，AIC 值呢？在ggplot 中探索平滑器的方法在这里：ats.ucla.edu/stat/r/faq/smooths.htm
非常感谢，我安装grid包有问题，我猜你的意思是这个：stat.auckland.ac.nz/~paul/grid/grid.html（我有mac）。
是的。 Paul murrell 的网格（祝福他）。无需安装，只需加载它，它与 R 一起分发，就像您提供的链接中提到的那样。

【解决方案2】：

您可以先阅读 Box 和 Cox 关于转换的经典论文。他们讨论了如何比较转换以及如何在一组或一系列潜在转换中找到有意义的转换。对数变换和线性模型是 Box-Cox 系列的特例。

正如@agstudy 所说，也要始终绘制数据。

【讨论】：

【解决方案3】：

这是一个比较五个模型的示例。由于前两个模型的形式，我们可以使用lm 来获得良好的起始值。（请注意，不应比较使用 y 的不同变换的模型，因此我们不应使用 lm1 和 lm2 作为比较模型，而只能作为起始值。）现在为前两个运行 nls。在这两个模型之后，我们在x 中尝试各种次数的多项式。幸运的是lm 和nls 使用一致的AIC 定义（尽管其他R 模型拟合函数不一定具有一致的AIC 定义）所以我们可以只使用lm 来表示多项式。最后，我们绘制了前两个模型的数据和拟合。

AIC 越低越好，所以nls1 最好跟在lm3.2 后面跟nls2。

lm1 <- lm(1/y ~ x)
nls1 <- nls(y ~ 1/(a + b*x), start = setNames(coef(lm1), c("a", "b")))
AIC(nls1) # -2.390924

lm2 <- lm(1/y ~ log(x))
nls2 <- nls(y ~ 1/(a + b*log(x)), start = setNames(coef(lm2), c("a", "b")))
AIC(nls2) # -1.29101

lm3.1 <- lm(y ~ x) 
AIC(lm3.1) # 13.43161

lm3.2 <- lm(y ~ poly(x, 2))
AIC(lm3.2) # -1.525982

lm3.3 <- lm(y ~ poly(x, 3))
AIC(lm3.3) # 0.1498972

plot(y ~ x)

lines(fitted(nls1) ~ x, lty = 1) # solid line
lines(fitted(nls2) ~ x, lty = 2) # dashed line

添加了更多模型，随后对其进行了修复并更改了符号。此外，为了跟进 Ben Bolker 的评论，我们可以用 AICcmodavg 包中的 AICc 替换上面的 AIC。

【讨论】：