【发布时间】:2018-11-26 16:36:38
【问题描述】:
我正在尝试找出 H2O 中用于 Tweedie 分布的平均残差损失函数的确切公式。
或者,一般来说,Tweedie 分布因变量的平均残差是多少?
到目前为止,我找到了这个页面 (http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/glm.html#tweedie-models),其中 tweedie 分布的偏差公式如下:
但是,在本页第 103 行 (https://github.com/h2oai/h2o-3/blob/master/h2o-core/src/main/java/hex/Distribution.java#L103) 上的 github 上找到的 H2O 代码中,公式的指定方式不同(忽略 omega,它只是权重,并且缺少求和):
2 * w * (Math.pow(y, 2 - tweediePower) / ((1 - tweediePower) * (2 - tweediePower)) - y * exp(f * (1 - tweediePower)) / (1 - tweediePower) + exp(f * (2 - tweediePower)) / (2 - tweediePower))
等式形式为:
那么,是文档错误还是执行错误?我将不胜感激!
谢谢!
【问题讨论】:
-
快速注意,如果您要将最新的稳定文档与源代码进行比较,请始终查看 master 分支:github.com/h2oai/h2o-3/blob/master/h2o-core/src/main/java/hex/…。还请发布您在文档中引用的确切方程式,因为您拥有的链接是整个部分。还请在源代码中说明为什么您链接到特定的 tweedie 案例而不是其他案例。
-
谢谢你,劳伦。我已经更新了这个问题。我说的是 Tweedie,因为我对 Tweedie 案例特别感兴趣,因为我正在使用一个使用 Tweedie 分布的模型并希望获得更清晰的理解。谢谢!
-
Gamma 和 Poisson 偏差方程实际上也存在类似的差异。泊松偏差通常定义为:2 * w * (y * log(y / y_hat) - (y - y_hat) )。但是,上面第 96 行链接中的代码是:-2 * w * (y * log(y_hat) - y_hat)
-
我在不同的源页面上找到了正确的方程式:github.com/h2oai/h2o-3/blob/master/h2o-algos/src/main/java/hex/… 这是针对 GLM 算法的。不过,我不确定 GBM 是否使用相同,我仍然很困惑为什么问题中链接的源页面上的方程式不同:/
标签: statistics h2o glm gbm tweedie