【发布时间】:2017-08-02 12:55:02
【问题描述】:
如果这个问题在这里的专家听众听起来很傻,请原谅我的无知
目前根据我的用例 我正在对 aws redshift 表中存在的数据执行某些分析,并将它们保存为 s3 存储桶中的 csv 文件 (操作有点类似于Pivot for redshift database) 然后我使用复制命令将数据更新回redshift db
目前在对 200 个 csv 文件执行分析(在 python3 中完成)后,这些文件保存在 redshift 中的 200 个不同的表中
csv 的数量会随着时间不断增加 目前整个过程大约需要50-60分钟才能完成
25 分钟获取大约 200 个 csv 并在 s3 存储桶中更新它们
25 分钟将大约 200 个 csv 更新为 200 个 aws 红移表
csv 的大小从几 MB 到 1GB 不等
我一直在寻找可以帮助我减少时间的工具或 aws 技术
*附加信息
csv 的结构不断变化。因此我必须删除并再次创建表 这将是一项重复性任务,每 6 小时执行一次
【问题讨论】:
-
Redshift 对于您正在尝试做的事情可能不是一个好的用例。 Redshift 真正用于数据仓库。我从个人经验中发现,除非您阅读他们的最佳实践文档,否则 Redshift 充满了您会遇到的陷阱。如果您想做诸如不断生成报告之类的事情,不妨考虑使用 EMR。
标签: python amazon-web-services amazon-redshift bigdata