【发布时间】:2019-11-19 12:38:45
【问题描述】:
我在 Glue 中有一个 ETL 作业,它处理一个非常大(300M 行)的 JDBC 数据库表,但我真的只需要这个表的一个子集(某些 id)。当我执行glueContext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons") 时,这是否会在此命令中加载整个表?有没有办法编写自定义查询以仅加载我需要的数据?或者,如果我在此之后使用另一个命令说 Filter 或 DataFrame 上的 spark SQL 命令,是否会在提取数据时进行过滤?
【问题讨论】:
标签: python amazon-web-services apache-spark pyspark aws-glue