【发布时间】:2021-05-18 20:39:38
【问题描述】:
我需要将 70TB 数据(2400 个表)从本地 Hive 迁移到 BigQuery。最初的计划是将 ORC 文件从 Hive 加载到 Cloud Storage,然后再加载到 BigQuery 表。 通过自动化或任何其他 GCP 服务实现这一目标的更好方法是什么?
【问题讨论】:
标签: google-cloud-platform google-bigquery
我需要将 70TB 数据(2400 个表)从本地 Hive 迁移到 BigQuery。最初的计划是将 ORC 文件从 Hive 加载到 Cloud Storage,然后再加载到 BigQuery 表。 通过自动化或任何其他 GCP 服务实现这一目标的更好方法是什么?
【问题讨论】:
标签: google-cloud-platform google-bigquery
我建议您将数据管道用于所述目的。 这里有一些关于如何使用它的参考 - https://cloud.google.com/architecture/dw2bq/dw-bq-data-pipelines#what-is-a-data-pipeline
此外,您可以在此处探索将本地数据传输到 bigquery 的不同方法 - https://cloud.google.com/architecture/dw2bq/dw-bq-migration-overview
请注意,大查询中不支持 ORC。因此,您必须将您的 ORC 数据转换为这 3 种格式之一 - Avro、JSON、CSV。
【讨论】: