【发布时间】:2019-07-30 02:21:12
【问题描述】:
我希望有人可以帮助我解决这个问题。我目前正在做一个数据管道项目,我目前的困境是是否将 parquet 与 Athena 一起使用或将其存储到 Redshift
2 场景: 首先,
EVENTS --> STORE IT IN S3 AS JSON.GZ --> USE SPARK(EMR) TO CONVERT TO PARQUET --> STORE PARQUET BACK INTO S3 --> ATHENA FOR QUERY --> VIZ
第二,
EVENTS --> STORE IT IN S3 --> USE SPARK(EMR) TO STORE DATA INTO REDSHIFT
这种情况的问题:
- 使用 Redshift 的 Spark JDBC 速度很慢
- 数据砖的 Spark-Redshift 存储库构建失败,并于 2 年前更新
我找不到关于哪种方法更好的有用信息。我应该使用 Redshift 还是 parquet 足够好?
如果有人能告诉我是否还有其他方法可以将 Spark 与 Redshift 连接起来,那就太好了,因为我在网上看到的只有 2 个解决方案 - JDBC 和 Spark-Reshift(Databricks)
附:定价模型对我来说不是一个问题,而且我正在处理数百万个事件数据。
【问题讨论】:
标签: apache-spark amazon-s3 amazon-redshift parquet