【问题标题】:storing time-series data in a database or binary file将时间序列数据存储在数据库或二进制文件中
【发布时间】:2013-01-02 17:11:51
【问题描述】:

我正在存储大量的时间序列金融市场报价数据。

通常,这些数据是按顺序写入的(即 - 数据在进入时加上时间戳,然后写入 db)。

我需要根据时间戳读取数据(仅) - 即一般查询类似于“选择 2012 年 1 月 1 日至 2012 年 2 月 1 日之间的所有数据”。

问题:如果 READ 性能是最重要的,我是将这些数据存储在二进制文件还是 mySQL 数据库中更好?

在我看来,数据的特性可能更适合文件,而我的初步测试似乎表明这样更快(即,我可以更快地读回数据)。

【问题讨论】:

    标签: mysql database


    【解决方案1】:

    您的描述仅涉及时间维度。但是其他维度是什么?可能是不同的金融工具(MSFT、IBM、AAPL 等)。

    金融市场数据的本质通常是按时间维度排序接收(每天更新数十万个股票价格),但按金融工具维度查询(查询单个工具的所有价格,可能受时间限制)。

    因此,如果您想要最大的读取性能,您必须确保您的数据不是以接收方式存储,而是以查询方式存储,即在磁盘上,必须按金融工具进行物理排序。

    我过去在 Oracle 中成功实现了这一点。在那里,您基本上创建了一个索引组织表,其中金融工具标识符和日期作为主键(标识符必须是第一个)。然后,Oracle 将或多或少地存储按金融工具标识符和日期排序的数据。因此,如果您在给定时间范围内查询单个工具的股票价格,所有需要的数据都将位于连续的磁盘页面上,并且已经按所需的顺序排列,因此查询速度会非常快。

    我对 MySQL 没有太多经验。但据我了解,您可以使用 InnoDB 存储引擎和聚集索引来实现相同的效果:

    CREATE TABLE prices (
        ticker CHAR(10),
        date DATE,
        close NUMBER(10, 4),
        PRIMARY KEY (ticker, date)
    ) ENGINE=InnoDB;
    

    请不要使用二进制文件。你会后悔的。

    【讨论】:

    • 谢谢。是的,你是对的,另一个维度将是仪器。在合理的性能下,这个架构可以有多大?
    猜你喜欢
    • 2022-11-15
    • 1970-01-01
    • 1970-01-01
    • 2013-07-29
    • 2018-07-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-11-07
    相关资源
    最近更新 更多