【发布时间】:2015-04-07 18:02:39
【问题描述】:
我正在使用 MongoDB 来处理时间序列,这工作正常,因为到目前为止还没有太多数据,但我现在需要确定需要什么才能扩展到更多数据。今天,每天接收 +200k 数据,每几秒钟接收一次数据,这不是很大,但应该很快就会增加。
由于每条数据(parentID、时间戳、值)都创建了一个文档,因此所使用的数据收集远非高效。我已经看到了几种使用将时间序列保存一小时的文档的方法(例如,使用一个内部数组来保存每一秒的数据),这真的很棒,但是因为我必须处理的数据没有收到定期(取决于 parentID),这种方法可能不合适。
在我收到的数据中:
- 有些每隔几秒就会收到一次
- 有些每隔几分钟就会收到一次
对于所有这些数据,两个连续数据之间的步长不一定相同。
有没有更好的方法可以用来处理这些数据,例如使用另一种模型化,可以帮助扩展数据库?
今天只有一个 mongod 进程正在运行,我想知道在哪个级别可能真正需要分片,有什么提示吗?
【问题讨论】:
标签: mongodb time-series scalability