【问题标题】:Unused spark worker未使用的火花工人
【发布时间】:2019-08-17 01:59:56
【问题描述】:

我已经配置了连接到 Cassandra 集群的独立 spark 集群,其中包含 1 个主服务器、1 个从属服务器和 Thrift 服务器,该服务器用作 Tableau 应用程序的 JDBC 连接器。无论如何,当我启动任何查询工作人员时,奴隶都会出现在工作人员列表中,似乎没有被用作执行者(使用了 0 个核心)。所有工作负载都由主执行器执行。同样在 Thrift Web 控制台中,我观察到只有一个执行器处于活动状态。

基本上,我希望 spark 集群的两个执行器上的分布式工作负载能够实现更高的性能。

来自主日志:

2019-03-26 15:36:52 INFO Master:54 - 我被选为领导了!新的 状态:ALIVE 2019-03-26 15:37:00 INFO Master:54 - 注册工人 worker-ip:37678 16 核,61.8 GB RAM

来自工作日志:

2019-03-26 15:37:00 INFO Worker:54 - 成功注册 主火花://master-hostname:7077

我的 spark-defaults.conf 是:

spark.driver.memory=50g
spark.driver.maxResultSize=4g

spark.sql.thriftServer.incrementalCollect=false
spark.sql.shuffle.partition=17
spark.sql.autoBroadcastJoinThreshold=10485760
spark.sql.inMemoryColumnarStorage.compressed=true
spark.sql.inMemoryColumnarStorage.batchSize=10000

spark.cores.max=32
spark.executor.cores=16
spark.memory.offHeap.enabled=true
spark.memory.offHeap.size=1g

pic1 工人

pic2 执行者

非常感谢任何帮助。

【问题讨论】:

  • 如果您没有得到足够的回复,请考虑更新问题。我个人觉得有点难读。 -- 我建议至少清晰的段落:1. 你到底做了什么以及你期望看到什么 2. 你看到了什么 3. 你试图调查和解决问题的情况
  • 感谢您的帮助,我确实编辑了一点我的问题,所以希望现在更清楚
  • 你是如何启动 thrift-server 的?
  • 我使用 start-thriftserver.sh: sbin/start-thriftserver.sh --packages datastax:spark-cassandra-connector:2.4.0-s_2.11

标签: apache-spark spark-thriftserver


【解决方案1】:

当 spark 没有在工人身上执行时,有几个主要嫌疑人需要消除。

  1. 您在 Web UI 中看到工作人员了吗?
  2. 防火墙是否允许您发送实际工作负载并获取响应?有关详细信息,请参阅this existing answer
  3. slave 是否有足够的空闲资源来接受作业?我注意到您需要 16 个内核,也许这超出了可用的范围?
  4. 是否需要容量?考虑并行提交多个作业(需要执行器,并且资源需求足够小),以确保它不仅仅是“巧合”地避开节点。继续下去,直到你发现它真的不适合你的主节点。

如果所有这些都失败了,可能需要更多的上下文。

  • 你不分享任何错误信息,真的没有任何错误吗?
  • 您使用的是哪种集群(Hadoop、Mesos?)

【讨论】:

  • 我在工人列表中看到工人,但在执行者列表中没有。中间没有防火墙。我用更少的内核进行了测试,但没有任何变化(16 是每个 VM 上的 CPU 数量)。至于第 4 点……事情是我们对旧服务器发起查询,而真正的情况是每个新查询都在等待完成前一个查询。您的评论是有道理的,我还在文档中读到 spark 尝试在尽可能少的节点上启动。我们在 master、slave 或 thrift 日志中看不到任何错误。据我所知,集群是独立的,如果你问的是。无论如何,谢谢,我们继续学习:)
  • @stebetko 根据您的屏幕截图,工作人员似乎没有正确连接。一般来说,这应该可以帮助您找到正确的解决方案,这个线程看起来很有希望:stackoverflow.com/q/19851053
猜你喜欢
  • 2017-11-23
  • 1970-01-01
  • 1970-01-01
  • 2016-07-27
  • 1970-01-01
  • 1970-01-01
  • 2018-06-23
  • 2018-08-09
  • 2018-02-22
相关资源
最近更新 更多