【发布时间】:2021-10-16 11:25:08
【问题描述】:
我有一个 Spark 批处理作业,每分钟运行一次,每批处理约 20 万条记录。应用程序的通常处理延迟约为 30 秒。在应用程序中,对于每个请求,我们都会向 DynamoDB 发出写入请求。有时,服务器端 DDB 写入延迟约为 5 毫秒而不是 3.5 毫秒(与通常的延迟 3.5 毫秒相比,增加了约 30%)。这导致应用程序的整体延迟增加了 6 倍(约 3 分钟)。
DDB 调用的亚秒级延迟如何影响应用的整体延迟 6 倍?
PS:我已经通过重叠 DDB put 延迟和 spark 应用程序处理延迟的 cloud-watch 图来验证根本原因。
谢谢, 维诺德。
【问题讨论】:
标签: apache-spark amazon-dynamodb amazon-emr