【发布时间】:2018-03-23 15:59:41
【问题描述】:
我希望计算仅在值发生变化时记录的时间序列数据集的平均值和标准差。
时间序列的间隔为 1 秒,如果在更改之间生成每个缺失值,则存在数据集膨胀的风险。
数据集类型示例:[Epoch, Value]
[[152345235, 3], [152345335, 12], [152345835, 8]]
我们正在使用 python 来清理和聚合数据。稀疏矩阵是不够的,因为它基于忽略不存在的 0 值。研究表明,没有任何东西可以轻易解决这个问题。
我的问题是,有没有人遇到过类似的问题,如果有,使用了什么技术来解决。
【问题讨论】:
-
mean 只是 sum() / n 你应该知道 n 是什么。 std 有点难,但同样的基本方法也可以。你只需要 (0-mean) * (n-x) 其中 x 是非零的数量。
标签: python pandas numpy dataset aggregate