【发布时间】:2021-04-07 13:41:23
【问题描述】:
例如,我想阅读 AWS Glue 中的 GCP BigQuery 表。我知道在 Spark 中可以声明连接到特定数据源的依赖项。如何在 AWS Glue 环境中执行此操作并传递此类依赖项?
【问题讨论】:
标签: amazon-web-services apache-spark pyspark google-bigquery aws-glue
例如,我想阅读 AWS Glue 中的 GCP BigQuery 表。我知道在 Spark 中可以声明连接到特定数据源的依赖项。如何在 AWS Glue 环境中执行此操作并传递此类依赖项?
【问题讨论】:
标签: amazon-web-services apache-spark pyspark google-bigquery aws-glue
在 Glue 中,可以像这样启动 Spark 会话
from pyspark.sql import SparkSession
spark = SparkSession.builder\
.appName("my-app") \
.config('spark.jars.packages', 'com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.18.1')\
.getOrCreate()
因此,例如通过 config() 方法可以向 Spark 会话提供参数 spark.jars.packages 并指定要使用的 Maven 存储库中的包(在本例中是用于连接到 Google BigQuery 的包)。
但这还不够,还需要把jar包上传到S3。然后将此 S3 路径提供给 Glue 作业作为 Jar lib path / Dependent jars path
【讨论】: