【问题标题】:How to pass AWS Glue external Spark packages?如何传递 AWS Glue 外部 Spark 包?
【发布时间】:2021-04-07 13:41:23
【问题描述】:

例如,我想阅读 AWS Glue 中的 GCP BigQuery 表。我知道在 Spark 中可以声明连接到特定数据源的依赖项。如何在 AWS Glue 环境中执行此操作并传递此类依赖项?

【问题讨论】:

    标签: amazon-web-services apache-spark pyspark google-bigquery aws-glue


    【解决方案1】:

    在 Glue 中,可以像这样启动 Spark 会话

    from pyspark.sql import SparkSession
    
    spark = SparkSession.builder\
        .appName("my-app") \
        .config('spark.jars.packages', 'com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.18.1')\
        .getOrCreate()
    

    因此,例如通过 config() 方法可以向 Spark 会话提供参数 spark.jars.packages 并指定要使用的 Maven 存储库中的包(在本例中是用于连接到 Google BigQuery 的包)。

    但这还不够,还需要把jar包上传到S3。然后将此 S3 路径提供给 Glue 作业作为 Jar lib path / Dependent jars path

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-03-15
      • 2016-06-17
      • 2020-02-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多