【发布时间】:2019-05-02 19:25:51
【问题描述】:
我最初的想法是用 spark-kafka-cassandra(在 kubernetes 上)重写庞大的 spark-kafka-hbase 应用程序。
我有以下数据模型,一种支持全时插入,另一种支持更新插入
方法一:
创建表 test.inv_positions(
location_id 整数,
项目大整数,
time_id 时间戳,
sales_floor_qty int,
backroom_qty int,
in_backroom 布尔值,
运输数量 int,
基本的 键 ((location_id), item,time_id) ) 具有聚类顺序(项目 asc,time_id DESC);
此表不断插入,因为 timeid 是 clustering col 的一部分。我正在考虑通过 fetch 1 读取最新的(timeid 是 desc),并通过在 key cols 上设置 TTL 或在一夜之间删除它们以某种方式删除旧记录。
关注点:TTL 或删除旧记录会创建墓碑。
方法二:
创建表 test.inv_positions(
location_id 整数,
项目大整数, time_id 时间戳,
sales_floor_qty int,
backroom_qty int,
in_backroom 布尔值,
运输数量 int,
主键((location_id), item) ) 聚类顺序为 (item asc);
如果新记录来自相同的位置和项目,则此表将对其进行更新。它易于阅读,无需担心清除旧记录
关注点:我在 Cassandra 上有另一个应用程序,它在不同时间更新不同的 col,但我们仍然有阅读问题。也就是说,upserts 也会创建墓碑,但与方法 1 相比有多糟糕?或任何其他更好的建模方式?
【问题讨论】: