【发布时间】:2021-02-01 03:24:05
【问题描述】:
我有一个 AWS 粘合作业,按照以下说明启用了 Spark UI:Enabling the Spark UI for Jobs
粘合作业具有 s3:* 访问 arn:aws:s3:::my-spark-event-bucket/* 资源的权限。但由于某种原因,当我运行胶水作业时(它在 40-50 秒内成功完成并成功生成了输出 parquet 文件),它不会向目标 s3 路径生成任何火花事件日志。我想知道可能出了什么问题,是否有任何系统的方法可以让我查明根本原因。
【问题讨论】:
-
在运行结束时仔细检查
Amazon S3 prefix for Spark event logs是否具有预期的 S3 路径。还值得您检查是否在S3 path where the script is stored上创建了事件日志。 -
我也有同样的问题。在运行期间,我可以看到在
/tmp/spark-event-logs/中创建了一个名为spark-application-1612277620995.inprogress的文件,但最后在指定的存储桶中看不到日志。我尝试为粘合 IAM 角色授予更多权限,但这无济于事。我也在不同的帐户中尝试过,但它不起作用。
标签: amazon-web-services apache-spark pyspark aws-glue spark-ui