带有 Tableau Desktop 的大型 CSV 文件答案

【问题标题】：Large CSV file with Tableau Desktop带有 Tableau Desktop 的大型 CSV 文件
【发布时间】：2019-02-27 20:32:41
【问题描述】：

我有一个 100GB 的 CSV 文件（2 亿行 X 60 列），用于通过提取在 Tableau Desktop 中创建仪表板。我一直面临性能问题，当我选择/取消选择任何维度过滤器时，刷新仪表板大约需要 2 分钟。使用 Tableau Server 可以解决这个问题吗？如果是，我应该配置多少个节点以及每个节点的配置是什么？

缓存设置也有问题吗？

我还考虑将这些数据放入像 Redshift 这样的列式数据库中，然后使用实时连接，以便使用 Redshift 查询引擎而不是 Tableau。对于这种小型数据集，这是不是有点矫枉过正？

【问题讨论】：

这不是一个小数据集，尤其是在您使用本地存储时。你试过谷歌的 BigQuery 吗？这具有非常低的启动成本，并且可以对此类数据集非常敏感。

标签： amazon-redshift tableau-api

【解决方案1】：

Redshift 或 Athena 可以很好地解决这个问题。

Redshift 易于设置，单个节点每月花费约 250 美元。您需要调整您的红移表以获得合理的性能。

AWS Athena 可能是以合理的价格获得良好性能的好方法

简单的雅典娜解决方案：

gzip CSV 文件，将其拆分为大约 10MB 的块
将其上传到 s3 存储桶
对那个桶运行 aws glue crawler
将您的 tableau 桌面指向现在存在的 athena 表。

假设您的 gzip 文件为 25GB，每个查询将花费您 0.13 美元，而其他费用很少。

如果太多（因为您想运行大量查询），那么您可以通过以下方式降低成本并提高性能

将数据分区到 s3 文件夹中
将数据转换为镶木地板格式

【讨论】：

感谢@Jon Scott。对于这个非大数据问题，Redshift/Athena 会不会有点过头了？
你所说的矫枉过正是什么意思？太贵了？一张表分析 100GB 的数据不小。尽量不要使用“大数据”这个词，因为它在这种情况下并没有多大意义。
没错！如果我选择 Redshift，我应该使用实时连接还是提取？
实时连接，否则它不会改善任何东西吗？您需要确保正确考虑您的红移 dist 键和排序键。
好的，谢谢！是否还有一种方法可以将整个画面提取（在我的情况下只有 4GB）存储在内存中。如果有的话，如果我只走提取方式，事情会变得更好吗？