【问题标题】:Large CSV file with Tableau Desktop带有 Tableau Desktop 的大型 CSV 文件
【发布时间】:2019-02-27 20:32:41
【问题描述】:

我有一个 100GB 的 CSV 文件(2 亿行 X 60 列),用于通过提取在 Tableau Desktop 中创建仪表板。我一直面临性能问题,当我选择/取消选择任何维度过滤器时,刷新仪表板大约需要 2 分钟。使用 Tableau Server 可以解决这个问题吗?如果是,我应该配置多少个节点以及每个节点的配置是什么?

缓存设置也有问题吗?

我还考虑将这些数据放入像 Redshift 这样的列式数据库中,然后使用实时连接,以便使用 Redshift 查询引擎而不是 Tableau。对于这种小型数据集,这是不是有点矫枉过正?

【问题讨论】:

  • 这不是一个小数据集,尤其是在您使用本地存储时。你试过谷歌的 BigQuery 吗?这具有非常低的启动成本,并且可以对此类数据集非常敏感。

标签: amazon-redshift tableau-api


【解决方案1】:

Redshift 或 Athena 可以很好地解决这个问题。

Redshift 易于设置,单个节点每月花费约 250 美元。您需要调整您的红移表以获得合理的性能。

AWS Athena 可能是以合理的价格获得良好性能的好方法

简单的雅典娜解决方案:

  1. gzip CSV 文件,将其拆分为大约 10MB 的块
  2. 将其上传到 s3 存储桶
  3. 对那个桶运行 aws glue crawler
  4. 将您的 tableau 桌面指向现在存在的 athena 表。

假设您的 gzip 文件为 25GB,每个查询将花费您 0.13 美元,而其他费用很少。

如果太多(因为您想运行大量查询),那么您可以通过以下方式降低成本并提高性能

  • 将数据分区到 s3 文件夹中
  • 将数据转换为镶木地板格式

【讨论】:

  • 感谢@Jon Scott。对于这个非大数据问题,Redshift/Athena 会不会有点过头了?
  • 你所说的矫枉过正是什么意思?太贵了?一张表分析 100GB 的数据不小。尽量不要使用“大数据”这个词,因为它在这种情况下并没有多大意义。
  • 没错!如果我选择 Redshift,我应该使用实时连接还是提取?
  • 实时连接,否则它不会改善任何东西吗?您需要确保正确考虑您的红移 dist 键和排序键。
  • 好的,谢谢!是否还有一种方法可以将整个画面提取(在我的情况下只有 4GB)存储在内存中。如果有的话,如果我只走提取方式,事情会变得更好吗?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-08-05
  • 2018-06-20
  • 1970-01-01
  • 2020-02-21
相关资源
最近更新 更多