【发布时间】:2018-01-30 10:02:34
【问题描述】:
考虑一个 AWS Glue 作业 sn-p:
val input = glueContext
.getCatalogSource(database = "my_db", tableName = "my_table")
.getDynamicFrame()
val myLimit = 10
if (input.count() <= myLimit) {
// end glue job here with error
}
// continue execution
如何以错误状态退出作业?如果我只是跳过执行,它只会以成功结束;如果我抛出异常,它会因异常而失败。我可以调用一些东西来停止具有失败/错误状态的作业但不引发异常吗?
更新
乍一看我可以:
val spark: SparkContext = SparkContext.getOrCreate()
val glueContext: GlueContext = new GlueContext(spark)
val jobId = GlueArgParser.getResolvedOptions(sysArgs, Seq("JOB_ID").toArray)("JOB_ID")
spark.cancelJob(jobId)
但是:
-
SparkContext来自内部框架,结束工作可能会导致不可预测(不稳定)的结果。 -
org.apache.spark.SparkContext#cancelJob接收Int而 AWS Glue 有一个StringJOB_ID像这样:j_aaa11111a1a11a111a1aaa11a11111aaa11a111a1111111a111a1a1aa111111a。所以不能直接传给cancelJob。
【问题讨论】:
-
为什么不抛出 RuntimeException ?
-
为什么在没有堆栈跟踪的情况下不结束工作? ;)
-
知道如何在不使用爬虫的情况下直接从数据库(jdbc)读取数据吗?可以使用 getSource 方法,但如何正确指定 JsonOptions?任何帮助都会有所帮助。可用于 scala 的文档非常少
-
嘿嘿,我来填补你的痛苦。 :) 我没有尝试 jdbc,但爬虫不用于创建连接。它们用于扫描您的数据并在胶水数据湖中构建表。它们与任何数据读取无关。 :) 看看this
-
print(error) 后跟 job.commit() 怎么样?
标签: scala amazon-web-services aws-glue