Datastax火花过滤器数据非常慢答案

【问题标题】：Datastax spark filter data very slowDatastax火花过滤器数据非常慢
【发布时间】：2019-09-17 04:59:25
【问题描述】：

我正在使用 DSE Analytics 分析数据，4 个 EC2 服务器 m5ad.xlarge（4 个内核和 16GB RAM，3 个分析和 1 个 Cassandra）
2 dc 像这样：

在 Cassandra 中，键空间大小约为 9GB，总共 2000 万行（50 列）
和查询：

        t0 = time() 
        df = exclusive_df.groupBy('id_store','id_area').agg(
            F.sum("numberin").alias("total_people")            
            ).orderBy("id_store")
        df.show()            
        tt = str(time() - t0)

执行查询花了将近 10 分钟，CPU，内存像上面一样（没有使用所有资源）。阶段是：

我不知道在这种情况下是什么原因导致查询缓慢，可能是因为我错过了工作人员的一些配置，或者缺少服务器/分区？

【问题讨论】：

标签： apache-spark cassandra datastax datastax-enterprise

【解决方案1】：

您的 Spark 作业仅在一个节点上运行，即驱动程序。这意味着没有执行者参与这项工作。因此，整个作业一个接一个地执行，而不是并行执行。

“可能是因为我错过了一些工人的配置，或者缺少服务器”？ - 非常。就是这样。

您要么没有将服务器注册到 Spark 驱动程序，要么您的配置错误。

检查您在 spark-env.sh 中的配置值。看看 spark.cores.max 有没有限制。

还要确保您确实为 Spark 提供了执行者的 IP。

更多信息：DataStax - Configuring Spark nodes

【讨论】：