【发布时间】:2013-07-17 16:19:26
【问题描述】:
这是一个优化问题,我希望你有创意的 SO 用户可能有答案。
我有一个包含两个值的大矩阵(500 万 x 2):时间和类型。从本质上讲,每个“类型”都是它自己的时间序列——下面的数据代表三个不同的时间序列(一个用于 A,一个用于 B,一个用于 C)。有 2000 种不同的“类型”。
mat
time type
[1,] 50 A
[2,] 50 A
[3,] 12 B
[4,] 24 B
[5,] 80 B
[6,] 92 B
[7,] 43 C
[8,] 69 C
我找到这 2000 个时间序列之间的相关性的最有效方法是什么?我目前正在生成一个矩阵,其中每次可能发生事件的时间都有不同的 bin,并且我用在该时间段内发生的每种“类型”事件的数量填充该矩阵。填充该矩阵后,我遍历每对“类型”并找到相关性。这是非常低效的(约 5 小时)。
如果有办法在 R 的 cor 函数中实现 by='type' 功能,我的整个问题就可以解决了吗?
感谢您的任何见解。
【问题讨论】:
标签: r optimization correlation