【发布时间】:2017-11-05 19:04:42
【问题描述】:
我在 Redshift 表上运行的 Spark 流代码中有许多创建表、插入和更新。我正在使用 Spark 2.2、spark-redshift-preview-3.0.0 jar 和 scala 2.11.8。通过流式作业在 Redshift 中插入/更新 5000 行需要 20 多分钟 - 这超出了我的 spark 微批处理窗口并使我的系统不稳定。
我应该设置哪些配置参数来加快我从 Spark Streaming 作业中的 Redshift 查询?我必须每 5 分钟插入和更新至少 10K 行。
【问题讨论】:
标签: spark-streaming amazon-redshift