【问题标题】:Datastax spark filter data very slowDatastax火花过滤器数据非常慢
【发布时间】:2019-09-17 04:59:25
【问题描述】:

我正在使用 DSE Analytics 分析数据,4 个 EC2 服务器 m5ad.xlarge(4 个内核和 16GB RAM,3 个分析和 1 个 Cassandra)
2 dc 像这样:

在 Cassandra 中,键空间大小约为 9GB,总共 2000 万行(50 列)
和查询:

        t0 = time() 
        df = exclusive_df.groupBy('id_store','id_area').agg(
            F.sum("numberin").alias("total_people")            
            ).orderBy("id_store")
        df.show()            
        tt = str(time() - t0)

执行查询花了将近 10 分钟,CPU,内存像上面一样(没有使用所有资源)。阶段是:

我不知道在这种情况下是什么原因导致查询缓慢,可能是因为我错过了工作人员的一些配置,或者缺少服务器/分区?

【问题讨论】:

    标签: apache-spark cassandra datastax datastax-enterprise


    【解决方案1】:

    您的 Spark 作业仅在一个节点上运行,即驱动程序。这意味着没有执行者参与这项工作。因此,整个作业一个接一个地执行,而不是并行执行。

    “可能是因为我错过了一些工人的配置,或者缺少服务器”? - 非常。就是这样。

    您要么没有将服务器注册到 Spark 驱动程序,要么您的配置错误。

    检查您在 spark-env.sh 中的配置值。看看 spark.cores.max 有没有限制。

    还要确保您确实为 Spark 提供了执行者的 IP。

    更多信息:DataStax - Configuring Spark nodes

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-08-13
      • 2019-08-23
      • 2020-08-09
      • 2016-05-01
      • 1970-01-01
      • 1970-01-01
      • 2015-11-06
      • 2022-07-16
      相关资源
      最近更新 更多