【发布时间】:2019-12-19 00:24:01
【问题描述】:
我可以控制 AWS Glue 服务中的 DPU 数量吗?
我在官方文档中看到 Glue 有六个 DPU,但我最多不需要六个 DPU。 另外,恐怕成本会过高。
【问题讨论】:
-
控制DPU数量是什么意思?您想使用少于 6 个 DPU?你能澄清你的问题吗
-
是的,没错。我想使用少于 6 个 DPU :)
标签: aws-glue
我可以控制 AWS Glue 服务中的 DPU 数量吗?
我在官方文档中看到 Glue 有六个 DPU,但我最多不需要六个 DPU。 另外,恐怕成本会过高。
【问题讨论】:
标签: aws-glue
您可以指定工人的数量和类型。来自documentation的引用:
工人类型
以下工作类型可用:
标准 – 当您选择此类型时,您还可以为最大容量提供一个值。最大容量是 AWS Glue 数据的数量 此作业运行时可以分配的处理单元 (DPU)。一种 DPU 是由 4 个 vCPU 组成的处理能力的相对度量 计算能力和 16 GB 内存。标准工人类型有 一个 50 GB 磁盘和 2 个执行程序。
G.1X – 当您选择此类型时,您还需要为 Number of workers 提供一个值。每个工作线程映射到 1 个 DPU(4 个 vCPU、16 GB 内存、 64 GB 磁盘),并为每个工作人员提供 1 个执行程序。我们推荐这个 用于内存密集型作业的 worker 类型。
G.2X – 当您选择此类型时,您还需要为 Number of workers 提供一个值。每个工作人员映射到 2 个 DPU(8 个 vCPU、32 GB 内存、 128 GB 磁盘),并为每个工作人员提供 1 个执行程序。我们推荐这个 用于内存密集型作业和运行 ML 转换的作业的 worker 类型。
您需要根据用于运行 ETL 作业的 DPU 数量按小时收费。有关更多信息,请参阅 AWS Glue 定价页面。
当您使用控制台配置作业并指定 Worker 类型为 Standard 时,会设置最大容量和 Number of workers 成为最大容量的值 - 1。如果您使用 AWS 命令行界面 (AWS CLI) 或 AWS 开发工具包,您可以指定 Max 容量参数,或者您可以同时指定 Worker 类型和 Number 的工人。有关详细信息,请参阅作业。
工人数量
作业运行时分配的已定义 workerType 的工人数。 对于 G.1X 和 G.2X Worker 类型,您必须指定该类型的 worker 数量。 您可以定义的最大工作线程数是 G.1X 为 299,G.2X 为 149。
【讨论】:
运行 Glue 作业所需的最小 DPU 是两个。您并不总是需要六个 DPU 来执行 Glue 作业。
要正确规划您的容量,您可以参考this。
【讨论】: