【问题标题】:Hadoop job error in dataproc gui version on Google cloudGoogle 云上 dataproc gui 版本中的 Hadoop 作业错误
【发布时间】:2021-02-10 10:31:58
【问题描述】:

我正在尝试使用 org.apache.hadoop.examples.WordCount 创建 wordcount 作业,但它显示错误:

我正在附上我的工作配置的图像以及我的存储桶中的文件在哪里(我使用的是存储桶而不是 hdfs)

使用的作业配置:

文件存储在桶中:

hadoop-mapreduce-examples.jar 的 URI:

我使用上述配置时遇到的错误:

作业输出: 驱动程序输出文件:

【问题讨论】:

  • 你能粘贴驱动输出文件的内容吗?它位于错误消息中的最后一个位置
  • @DavidRabinowitz 我现在已经包括在内,请检查。谢谢

标签: hadoop google-cloud-dataproc


【解决方案1】:

问题在于,默认情况下 Hadoop 不会写入现有路径,除非特别要求“覆盖”模式。你有两个选择:

  • 在运行示例之前删除输出路径
  • 每次运行使用另一个输出路径

一般来说,作业的输出可以在 Google Cloud 控制台中找到 - 查找 Dataproc 下的“作业”页面,或集群页面下的“作业”标签。此外,如此处所述,输出将保存到 GCS,您可以随时从那里检索它。

【讨论】:

  • 有什么方法可以包含一些脚本来相应地更改路径。例如,我会为第一次运行执行类似“输出/ex1”的操作,为第二次运行执行“输出/ex2”等...有什么办法可以解决这样的问题,如果有,请附上参考链接,因为我是 hadoop 新手,正在逐步学习。谢谢
猜你喜欢
  • 2015-12-21
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-12-07
  • 2023-03-12
  • 1970-01-01
  • 1970-01-01
  • 2020-03-13
相关资源
最近更新 更多