【问题标题】:Oracle 12c - Table with size larger than 5 terabytesOracle 12c - 大小超过 5 TB 的表
【发布时间】:2018-01-11 12:11:09
【问题描述】:

在我们的数据库(Oracle 12c、Exadata)中,我们计划存储销售数据。包含销售数据的输入文本文件每天都会出现(每天约 1000 个文件,每个文件包含约 20000 行)。文本文件被读取并尽快传输到数据库。根据我们的计算,它将在一年内增长到 5 TB。

数据格式: [transaction date][category][sales_number][buyer_id][other columns]

销售数据有 10 个不同的类别,具有相同的字段。从逻辑上讲,数据可以只存储在一个表中,也可以分为 10 个表(相对于类别)。

在 oracle 中存储此类大数据的最佳做法是什么?应该应用什么样的分区和索引策略?

限制条件:数据应在 2-3 天内提供给营销部门进行分析。基于 [sales_number] 或 [category]、[buyer_id] 或 [buyer_id] 列的查询。

【问题讨论】:

  • 你的意思是1000行当你写“每天~1000个文件”吗?
  • 您有基于类别的查询吗?
  • 每天 1000 个文件,每个文件包含 ~10000 行,大多数情况下查询都有类别。
  • 更新:每天1000个文件,每个文件包含~20000行,
  • 通常,营业日期是分区键。您可以按类别进行细分,但如果不进行详细分析,则很难说。

标签: oracle bigdata exadata


【解决方案1】:

如果类别的数量已知且固定,那么您可以为每个类别使用一个子分区。 一种方法可能是这样的:

CREATE TABLE SALES_DATA
(
  TRANSACTION_DATE TIMESTAMP(0) NOT NULL,
  CATEGORY NUMBER NOT NULL,
  SALES_NUMBER NUMBER, 
  BUYER_ID NUMBER,
  [OTHER COLUMNS]
)
PARTITION BY RANGE (TRANSACTION_DATE) INTERVAL (INTERVAL '1' DAY)
SUBPARTITION BY LIST (CATEGORY)
SUBPARTITION TEMPLATE 
    (
        SUBPARTITION CAT_1 VALUES (1), 
        SUBPARTITION CAT_2 VALUES (2),
        SUBPARTITION CAT_3_AND_4 VALUES (3,4), 
        SUBPARTITION CAT_5 VALUES (5),
        ...
        SUBPARTITION CAT_10 VALUES (10),
        SUBPARTITION CAT_OTHERS VALUES (DEFAULT)        
    )
    (
        PARTITION P_INITIAL VALUES LESS THAN (TIMESTAMP '2018-01-01 00:00:00')  
    );

sales_number 和buyer_id 需要本地索引。如果需要,您可以将每个(子)分区放入单独的表空间中。

【讨论】:

  • 由于Oracle 必须扫描日期范围内所有分区的索引,因此对sales_number 或buyer_id 的查询会非常缓慢。如果没有给出日期,则必须处理所有分区。
  • @user2612030,是的,没错,但这取决于类别的数量。 sales_number 的全球索引会更好。
  • 在不知道查询或数据基数的情况下,您怎么知道您甚至需要分区或索引?
  • @BobC,OP 说明了一些查询的数量和类型。
  • @WernfriedDomscheit 也许我很笨……在哪里?
猜你喜欢
  • 2011-06-24
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-10-29
  • 1970-01-01
  • 2013-08-17
  • 1970-01-01
相关资源
最近更新 更多