将 Spark 与 Cassandra 结合使用？答案

【问题标题】：Using Spark in conjunction with Cassandra?将 Spark 与 Cassandra 结合使用？
【发布时间】：2015-12-17 08:55:44
【问题描述】：

在我们当前的基础架构中，我们使用 Cassandra 集群作为后端数据库，并通过 Solr 使用 Web UI 供客户根据需要对我们的数据库执行读取查询。

有人要求我将 Spark 视为我们未来可以实施的东西，但我无法理解它将如何改进我们目前的工作。

所以我的基本问题是：

1) Spark 是否可以取代 Solr 来查询数据库，例如当用户在我们的网站上查找内容时？

2) 只是一个总体思路，需要什么样的基础设施来改善我们目前的情况（5 个 Cassandra 节点，所有这些节点都运行 Solr）。换句话说，我们只是在考虑构建另一个只有 Spark 节点的集群？

3) Spark 节点可以和 Cassandra 在同一台物理机上运行吗？由于内存限制，我猜这将是一个坏主意，因为我对 Spark 的基本理解是它在内存中完成所有工作。

4) 我可以使用任何好的快速/基本资源来开始了解 Spark 可以如何使我们受益？我可以访问 Datastax Academy 课程，所以我正在学习这些课程，只是想知道是否还有其他东西可以帮助我的研究。

基本上，一旦我弄清楚它是什么，更重要的是如何/如果它是我们可以利用的东西，我将开始使用一些测试实例，但我可能应该先熟悉基础知识。

【问题讨论】：

【解决方案1】：

1) 不，Spark 是批处理系统，Solr 是实时索引解决方案。 solr 的延迟将是亚秒级，Spark 作业需要几分钟（或更多）。真的不应该有 Spark 可以替代 Solr 的情况。

2) 我通常推荐在同一台机器上运行 C* 和 Spark 的第二个数据中心。这将通过复制获得来自第一个数据中心的数据。

3) Spark 不会在内存中做所有事情。根据您的用例，在与 C* 相同的机器上运行可能是一个好主意。这可以允许从 C* 读取数据的局部性，并大大有助于表扫描时间。我通常还建议将 Spark Executors 和 C* 节点放在一起。

【讨论】：