【发布时间】:2023-03-24 16:48:01
【问题描述】:
我们的数据以 JSON 格式存储在 S3 中,没有分区。直到今天我们只使用 athena,但现在我们尝试了 Redshift Spectrum。
我们两次运行相同的查询。 一次使用 Redshift Spectrum,一次使用 Athena。两者都连接到 S3 中的相同数据。
使用 Redshift Spectrum 需要很长时间(超过 15 分钟)才能运行此报告,而使用 Athena 只需 10 秒即可运行。
我们在 aws 控制台中在两种情况下运行的查询是这样的:
SELECT "events"."persistentid" AS "persistentid",
SUM(1) AS "sum_number_of_reco"
FROM "analytics"."events" "events"
GROUP BY "events"."persistentid"
知道发生了什么吗? 谢谢
【问题讨论】:
-
这是无服务器和您的服务器之间的区别。 Redshift 频谱正在使用您的 Redshift 集群,您可以根据需要调整其大小,但它可能比分配给您的查询的 Athena 舰队小。
-
AWS 支持人员说这是因为我们有很多小文件(因为我们使用 Kineses Firehose,它每 5 分钟在 s3 中创建一个文件)...
标签: amazon-s3 tableau-api amazon-athena amazon-redshift-spectrum