【发布时间】:2016-08-06 17:22:17
【问题描述】:
我们有大量的服务器数据存储在S3 中(即将采用Parquet 格式)。数据需要一些转换,因此它不能是 S3 的直接副本。我将使用Spark 访问数据,但我想知道是否不是用 Spark 操作它,而是写回 S3,然后复制到 Redshift,如果我可以跳过一个步骤并运行查询来拉/transform 数据,然后直接复制到 Redshift?
【问题讨论】:
标签: hadoop amazon-s3 apache-spark apache-spark-sql