【发布时间】:2020-12-07 17:58:12
【问题描述】:
使用标准 dataproc 映像 1.5(Debian 10、Hadoop 2.10、Spark 2.4),无法创建 dataproc 集群。区域设置为europe-west-2。
堆栈驱动程序日志显示:
"Failed to initialize node <name of cluster>-m: Component hdfs failed to activate See output in: gs://.../dataproc-startup-script_output"
通过输出扫描(gs://.../dataproc-startup-script_output),我可以看到hdfs激活失败:
Aug 18 13:21:59 activate-component-hdfs[2799]: + exit_code=1
Aug 18 13:21:59 activate-component-hdfs[2799]: + [[ 1 -ne 0 ]]
Aug 18 13:21:59 activate-component-hdfs[2799]: + echo 1
Aug 18 13:21:59 activate-component-hdfs[2799]: + log_and_fail hdfs 'Component hdfs failed to activate' 1
Aug 18 13:21:59 activate-component-hdfs[2799]: + local component=hdfs
Aug 18 13:21:59 activate-component-hdfs[2799]: + local 'message=Component hdfs failed to activate'
Aug 18 13:21:59 activate-component-hdfs[2799]: + local error_code=1
Aug 18 13:21:59 activate-component-hdfs[2799]: + local client_error_indicator=
Aug 18 13:21:59 activate-component-hdfs[2799]: + [[ 1 -eq 2 ]]
Aug 18 13:21:59 activate-component-hdfs[2799]: + echo 'StructuredError{hdfs, Component hdfs failed to activate}'
Aug 18 13:21:59 activate-component-hdfs[2799]: StructuredError{hdfs, Component hdfs failed to activate}
Aug 18 13:21:59 activate-component-hdfs[2799]: + exit 1
我错过了什么?
编辑
正如@Dagang 建议的那样,我 ssh-ed 进入主节点并运行grep "activate-component-hdfs" /var/log/dataproc-startup-script.log。输出为here。
【问题讨论】:
-
几个问题:它是否以一致的方式发生?集群的大小是多少?您使用的是哪些机器?您是否添加了任何其他初始化操作?
-
为此,我使用了除图像之外的所有默认选项。
n1-standard-4为主人和 2 名工人。所有节点的 500GB 标准永久性磁盘。没有自定义初始化。默认图像是 1.3 版,但我想使用 1.5 版。我尝试了几次,但都因同样的错误而失败。 -
你应该可以在日志中找到失败的原因,只需通过“activate-component-hdfs”过滤即可。您也可以通过 ssh 进入主节点,然后运行
/var/log/dataproc-startup-script.log。 -
我试过了,但无法重现 1.5 的问题。
-
嗨@tak,恐怕我无法在 1.5 集群上重现它。能否请您将大港问的日志添加到问题中?
标签: google-cloud-platform google-cloud-dataproc