【发布时间】:2018-11-22 09:48:32
【问题描述】:
要在 Parquet 格式的 S3 存储桶中的数据上运行作业,有两种方法:
创建爬虫创建模式表,使用
glueContext.create_dynamic_frame.from_catalog(dbname, tablename)在Glue作业中形成动态框架。使用
glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")直接从S3读取
由于我的数据方案不会及时改变,使用爬虫有什么优势(性能方面或其他方面)?在这种情况下,我为什么需要爬虫?
【问题讨论】:
标签: amazon-web-services apache-spark pyspark aws-glue