如何传递 AWS Glue 外部 Spark 包？

【问题标题】：How to pass AWS Glue external Spark packages?如何传递 AWS Glue 外部 Spark 包？
【发布时间】：2021-04-07 13:41:23
【问题描述】：

例如，我想阅读 AWS Glue 中的 GCP BigQuery 表。我知道在 Spark 中可以声明连接到特定数据源的依赖项。如何在 AWS Glue 环境中执行此操作并传递此类依赖项？

【问题讨论】：

标签： amazon-web-services apache-spark pyspark google-bigquery aws-glue

【解决方案1】：

在 Glue 中，可以像这样启动 Spark 会话

from pyspark.sql import SparkSession

spark = SparkSession.builder\
    .appName("my-app") \
    .config('spark.jars.packages', 'com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.18.1')\
    .getOrCreate()

因此，例如通过 config() 方法可以向 Spark 会话提供参数 spark.jars.packages 并指定要使用的 Maven 存储库中的包（在本例中是用于连接到 Google BigQuery 的包）。

但这还不够，还需要把jar包上传到S3。然后将此 S3 路径提供给 Glue 作业作为 Jar lib path / Dependent jars path

【讨论】：