【发布时间】:2018-06-19 14:44:26
【问题描述】:
我们提出了一种利用 Cassandra-Spark 组合的解决方案,该组合通过工作负载分离架构实现。也就是说,Operations DC 主要进行繁重的写入操作,而 Analytics DC 处理 Analytics 作业。我读过here:
"一旦在其他集群上收到这些异步提示,它们就会经历正常的写入过程并被同化到该数据中心。这样,任何正在运行的分析作业都可以轻松简单地访问这些新数据,而无需一个耗时的 ETL 过程。"
我们担心的是,由于所有数据都近乎实时地从 Operations DC 复制到 Analytics DC,我们如何确保复制过程不会影响 Analytics DC 上发生的分析处理?
或者,分析作业的繁重处理是否会影响数据中心之间的数据复制?
我知道我可能遗漏了一些东西,但一个方向会有所帮助。还将感谢任何有关基准测试或理论分析的相关文档以解决此问题。
【问题讨论】:
标签: apache-spark cassandra datastax-enterprise