【发布时间】:2019-09-17 04:59:25
【问题描述】:
我正在使用 DSE Analytics 分析数据,4 个 EC2 服务器 m5ad.xlarge(4 个内核和 16GB RAM,3 个分析和 1 个 Cassandra)
2 dc 像这样:
在 Cassandra 中,键空间大小约为 9GB,总共 2000 万行(50 列)
和查询:
t0 = time()
df = exclusive_df.groupBy('id_store','id_area').agg(
F.sum("numberin").alias("total_people")
).orderBy("id_store")
df.show()
tt = str(time() - t0)
执行查询花了将近 10 分钟,CPU,内存像上面一样(没有使用所有资源)。阶段是:
我不知道在这种情况下是什么原因导致查询缓慢,可能是因为我错过了工作人员的一些配置,或者缺少服务器/分区?
【问题讨论】:
标签: apache-spark cassandra datastax datastax-enterprise