【发布时间】:2019-07-28 17:43:18
【问题描述】:
我阅读了其他类似的主题并搜索了 Google 以找到更好的方法,但找不到任何可行的解决方案。
我在 BigQuery 中有一个大表(假设每天插入 2000 万行)。我想在 python/pandas/dask 中有大约 2000 万行数据和大约 50 列来做一些分析。我曾尝试使用 bqclient、panda-gbq 和 bq 存储 API 方法,但在 python 中拥有 500 万行需要 30 分钟。还有其他方法吗?是否有任何 Google 服务可以做类似的工作?
【问题讨论】:
-
我开发了一个python包(测试覆盖率100%):google-pandas-load.readthedocs.io/en/latest,可以快速下载数据。
标签: pandas google-cloud-platform google-bigquery bigdata dask