【发布时间】:2015-09-08 00:51:00
【问题描述】:
我正在评估 Spark/Cassandra 和 Elasticsearch 以决定选择哪一个。
现在,我正在使用 spark 和 Cassandra 生成不同的报告,但我注意到有 200 万条记录(大约 400 列),分别需要大约 9.7、9.8、9.9、10 和 10 分钟来生成 5 个报告.
更改调度模式"spark.scheduler.mode", "FAIR" 似乎并没有太大的不同。
我正在考虑将所有数据加载到内存中并将其缓存,以便如果数据是预加载的内存,则后续查询可以更快地运行。
但是,在 Elasticsearch 中运行相同的报告只需 2 分钟。
关于我可以做些什么来提高火花响应时间的任何想法?
【问题讨论】:
-
请分享您的一些代码,并尝试找出哪个 API 需要更多时间。
-
@Knight71 - 没什么复杂的。只是在 Java 中使用 SparkSQL 做
select count(*) from table。
标签: elasticsearch cassandra apache-spark datastax datastax-enterprise