【问题标题】:Dataproc cluster fails to initializeDataproc 集群无法初始化
【发布时间】:2020-12-07 17:58:12
【问题描述】:

使用标准 dataproc 映像 1.5(Debian 10、Hadoop 2.10、Spark 2.4),无法创建 dataproc 集群。区域设置为europe-west-2

堆栈驱动程序日志显示:

"Failed to initialize node <name of cluster>-m: Component hdfs failed to activate See output in: gs://.../dataproc-startup-script_output"

通过输出扫描(gs://.../dataproc-startup-script_output),我可以看到hdfs激活失败:

Aug 18 13:21:59 activate-component-hdfs[2799]: + exit_code=1
Aug 18 13:21:59 activate-component-hdfs[2799]: + [[ 1 -ne 0 ]]
Aug 18 13:21:59 activate-component-hdfs[2799]: + echo 1
Aug 18 13:21:59 activate-component-hdfs[2799]: + log_and_fail hdfs 'Component hdfs failed to activate' 1
Aug 18 13:21:59 activate-component-hdfs[2799]: + local component=hdfs
Aug 18 13:21:59 activate-component-hdfs[2799]: + local 'message=Component hdfs failed to activate'
Aug 18 13:21:59 activate-component-hdfs[2799]: + local error_code=1
Aug 18 13:21:59 activate-component-hdfs[2799]: + local client_error_indicator=
Aug 18 13:21:59 activate-component-hdfs[2799]: + [[ 1 -eq 2 ]]
Aug 18 13:21:59 activate-component-hdfs[2799]: + echo 'StructuredError{hdfs, Component hdfs failed to activate}'
Aug 18 13:21:59 activate-component-hdfs[2799]: StructuredError{hdfs, Component hdfs failed to activate}
Aug 18 13:21:59 activate-component-hdfs[2799]: + exit 1

我错过了什么?

编辑

正如@Dagang 建议的那样,我 ssh-ed 进入主节点并运行grep "activate-component-hdfs" /var/log/dataproc-startup-script.log。输出为here

【问题讨论】:

  • 几个问题:它是否以一致的方式发生?集群的大小是多少?您使用的是哪些机器?您是否添加了任何其他初始化操作?
  • 为此,我使用了除图像之外的所有默认选项。 n1-standard-4 为主人和 2 名工人。所有节点的 500GB 标准永久性磁盘。没有自定义初始化。默认图像是 1.3 版,但我想使用 1.5 版。我尝试了几次,但都因同样的错误而失败。
  • 你应该可以在日志中找到失败的原因,只需通过“activate-component-hdfs”过滤即可。您也可以通过 ssh 进入主节点,然后运行 ​​/var/log/dataproc-startup-script.log
  • 我试过了,但无法重现 1.5 的问题。
  • 嗨@tak,恐怕我无法在 1.5 集群上重现它。能否请您将大港问的日志添加到问题中?

标签: google-cloud-platform google-cloud-dataproc


【解决方案1】:

所以问题是有一个名为“pete{”的用户名,hadoop fs -mkdir -p 命令在该用户名上失败。这类带有特殊字符的用户名,尤其是左括号,例如,“()[]{}”,可能会在集群创建过程中导致 HDFS 激活步骤失败。

因此,简单的解决方案就是删除那些意外创建的用户。

【讨论】:

  • 我们应该从哪里删除这个用户?我们面临着类似的问题,但我们在 IAM 中没有这些用户。
猜你喜欢
  • 2017-02-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-11-03
  • 1970-01-01
  • 1970-01-01
  • 2019-05-19
相关资源
最近更新 更多