【发布时间】:2015-12-17 08:55:44
【问题描述】:
在我们当前的基础架构中,我们使用 Cassandra 集群作为后端数据库,并通过 Solr 使用 Web UI 供客户根据需要对我们的数据库执行读取查询。
有人要求我将 Spark 视为我们未来可以实施的东西,但我无法理解它将如何改进我们目前的工作。
所以我的基本问题是:
1) Spark 是否可以取代 Solr 来查询数据库,例如当用户在我们的网站上查找内容时?
2) 只是一个总体思路,需要什么样的基础设施来改善我们目前的情况(5 个 Cassandra 节点,所有这些节点都运行 Solr)。 换句话说,我们只是在考虑构建另一个只有 Spark 节点的集群?
3) Spark 节点可以和 Cassandra 在同一台物理机上运行吗?由于内存限制,我猜这将是一个坏主意,因为我对 Spark 的基本理解是它在内存中完成所有工作。
4) 我可以使用任何好的快速/基本资源来开始了解 Spark 可以如何使我们受益?我可以访问 Datastax Academy 课程,所以我正在学习这些课程,只是想知道是否还有其他东西可以帮助我的研究。
基本上,一旦我弄清楚它是什么,更重要的是如何/如果它是我们可以利用的东西,我将开始使用一些测试实例,但我可能应该先熟悉基础知识。
【问题讨论】:
标签: apache-spark cassandra datastax-enterprise