【问题标题】:Using Spark in conjunction with Cassandra?将 Spark 与 Cassandra 结合使用?
【发布时间】:2015-12-17 08:55:44
【问题描述】:

在我们当前的基础架构中,我们使用 Cassandra 集群作为后端数据库,并通过 Solr 使用 Web UI 供客户根据需要对我们的数据库执行读取查询。

有人要求我将 Spark 视为我们未来可以实施的东西,但我无法理解它将如何改进我们目前的工作。

所以我的基本问题是:

1) Spark 是否可以取代 Solr 来查询数据库,例如当用户在我们的网站上查找内容时?

2) 只是一个总体思路,需要什么样的基础设施来改善我们目前的情况(5 个 Cassandra 节点,所有这些节点都运行 Solr)。 换句话说,我们只是在考虑构建另一个只有 Spark 节点的集群?

3) Spark 节点可以和 Cassandra 在同一台物理机上运行吗?由于内存限制,我猜这将是一个坏主意,因为我对 Spark 的基本理解是它在内存中完成所有工作。

4) 我可以使用任何好的快速/基本资源来开始了解 Spark 可以如何使我们受益?我可以访问 Datastax Academy 课程,所以我正在学习这些课程,只是想知道是否还有其他东西可以帮助我的研究。

基本上,一旦我弄清楚它是什么,更重要的是如何/如果它是我们可以利用的东西,我将开始使用一些测试实例,但我可能应该先熟悉基础知识。

【问题讨论】:

    标签: apache-spark cassandra datastax-enterprise


    【解决方案1】:

    1) 不,Spark 是批处理系统,Solr 是实时索引解决方案。 solr 的延迟将是亚秒级,Spark 作业需要几分钟(或更多)。真的不应该有 Spark 可以替代 Solr 的情况。

    2) 我通常推荐在同一台机器上运行 C* 和 Spark 的第二个数据中心。这将通过复制获得来自第一个数据中心的数据。

    3) Spark 不会在内存中做所有事情。根据您的用例,在与 C* 相同的机器上运行可能是一个好主意。这可以允许从 C* 读取数据的局部性,并大大有助于表扫描时间。我通常还建议将 Spark Executors 和 C* 节点放在一起。

    4) DS Academy 320 课程可能是目前最好的资源。 https://academy.datastax.com/courses/getting-started-apache-spark

    【讨论】:

      猜你喜欢
      • 2019-03-03
      • 2016-09-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-01-24
      • 2015-05-15
      • 2019-10-30
      相关资源
      最近更新 更多