【问题标题】:AWS glue job (Pyspark) to AWS glue data catalogAWS 粘合作业 (Pyspark) 到 AWS 粘合数据目录
【发布时间】:2022-07-08 04:19:07
【问题描述】:

我们知道, 从 pyspark 脚本(aws 粘合作业)写入 AWS 数据目录的过程是写入 s3 存储桶(eg.csv),使用爬虫并调度它。

还有其他写入 aws 胶水数据目录的方法吗? 我正在寻找一种直接的方法来做到这一点。例如。写入为 hudi 表并同步到 aws 胶水数据目录。

【问题讨论】:

    标签: amazon-web-services aws-glue aws-glue-data-catalog aws-glue-spark


    【解决方案1】:

    您可以手动指定表格。爬虫只发现模式。如果您手动设置架构,您应该能够在运行 AWS Glue 作业时读取您的数据。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2023-03-28
      • 1970-01-01
      • 1970-01-01
      • 2022-07-01
      • 2021-07-26
      • 2023-03-25
      • 2018-10-31
      • 1970-01-01
      相关资源
      最近更新 更多