将时间序列数据存储在数据库或二进制文件中答案

【问题标题】：storing time-series data in a database or binary file将时间序列数据存储在数据库或二进制文件中
【发布时间】：2013-01-02 17:11:51
【问题描述】：

我正在存储大量的时间序列金融市场报价数据。

通常，这些数据是按顺序写入的（即 - 数据在进入时加上时间戳，然后写入 db）。

我需要根据时间戳读取数据（仅） - 即一般查询类似于“选择 2012 年 1 月 1 日至 2012 年 2 月 1 日之间的所有数据”。

问题：如果 READ 性能是最重要的，我是将这些数据存储在二进制文件还是 mySQL 数据库中更好？

在我看来，数据的特性可能更适合文件，而我的初步测试似乎表明这样更快（即，我可以更快地读回数据）。

【问题讨论】：

标签： mysql database

【解决方案1】：

您的描述仅涉及时间维度。但是其他维度是什么？可能是不同的金融工具（MSFT、IBM、AAPL 等）。

金融市场数据的本质通常是按时间维度排序接收（每天更新数十万个股票价格），但按金融工具维度查询（查询单个工具的所有价格，可能受时间限制）。

因此，如果您想要最大的读取性能，您必须确保您的数据不是以接收方式存储，而是以查询方式存储，即在磁盘上，必须按金融工具进行物理排序。

我过去在 Oracle 中成功实现了这一点。在那里，您基本上创建了一个索引组织表，其中金融工具标识符和日期作为主键（标识符必须是第一个）。然后，Oracle 将或多或少地存储按金融工具标识符和日期排序的数据。因此，如果您在给定时间范围内查询单个工具的股票价格，所有需要的数据都将位于连续的磁盘页面上，并且已经按所需的顺序排列，因此查询速度会非常快。

我对 MySQL 没有太多经验。但据我了解，您可以使用 InnoDB 存储引擎和聚集索引来实现相同的效果：

CREATE TABLE prices (
    ticker CHAR(10),
    date DATE,
    close NUMBER(10, 4),
    PRIMARY KEY (ticker, date)
) ENGINE=InnoDB;

请不要使用二进制文件。你会后悔的。

【讨论】：

谢谢。是的，你是对的，另一个维度将是仪器。在合理的性能下，这个架构可以有多大？