【发布时间】:2018-04-08 02:34:39
【问题描述】:
我正在尝试设计一种数据管道来将我的 Hive 表迁移到 BigQuery。 Hive 在 Hadoop 本地集群上运行。这是我目前的设计,其实很简单,就是一个shell脚本:
对于每个表 source_hive_table {
- 插入覆盖表
target_avro_hive_tableSELECT * FROM source_hive_table; - 使用
distcp将生成的 avro 文件移动到谷歌云存储中 - 创建第一个 BQ 表:
bq load --source_format=AVRO your_dataset.something something.avro - 处理来自 BigQuery 本身的任何转换问题,因此从刚刚编写的表中选择并手动处理任何转换
}
你觉得有道理吗?有没有更好的方法,也许使用 Spark? 我对处理强制转换的方式不满意,我希望避免两次创建 BigQuery 表。
【问题讨论】:
-
从任何其他数据库迁移到 BigQuery 的最佳/最简单的方法是导出(例如 CSV)、上传到 GCS 并导入。完成。
标签: hadoop hive google-bigquery google-cloud-platform