【发布时间】:2019-01-22 00:11:08
【问题描述】:
(注意:这与我之前发布的一个问题有关 H2O (open source) for K-mean clustering)
我正在为我们的大约 100 个特征的数据集使用 K-Means(其中一些是时间戳)
(1) 我检查了“OUTPUT - CLUSTER MEANS”部分,时间戳字段的值类似于“1.4144556086883196e+22”。我们的时间戳文件是关于 2018 年的数据,而 2018 年 Unix 时间就像“1541092918000”。因此,它不可能是“1.4144556086883196e+22”那么大的数字。我对“OUTPUT - CLUSTER MEANS”部分的数字的理解应该接近原始数据(标准化之前)。对吧?
(2)关于标准化,能不能用这个例子https://github.com/h2oai/h2o-3/blob/master/h2o-genmodel/src/test/resources/hex/genmodel/algos/kmeans/model.ini#L21-L27告诉我输入数据是如何转换成标准化值的?说,我有一个原始向量值( a,b,c,d, 1.8 ),我只保留最后一个元素并省略其他元素。在这个例子中,我怎么知道它是否接近下面的中心 2。你能告诉我H2O如何使用standardize_means、standardize_mults和standardize_modes转换原始数据吗?我确信 H2O 有办法从模型输出中计算标准化值,但我找不到位置和公式。 center_2 = [2.0, 0.0, -0.5466317772145349, 0.04096506994984166, 2.1628815416218337]
谢谢。
【问题讨论】:
-
你的第一个问题是这个时间戳是从哪里来的?只是一个简短的说明,时间戳自 unix 时间以来以毫秒为单位(并且可以对应于您运行模型的时间),因此您通常必须将 h2o-3 时间戳除以 1000,但在您的情况下,这个数字仍然看起来很大。
标签: h2o