【发布时间】:2016-08-11 07:13:48
【问题描述】:
我想将具有多个字符分隔符的数据加载到 BigQuery。 BQ 加载命令目前不支持多字符分隔符。它仅支持单字符分隔符,如 '|'、'$'、'~' 等
我知道有一种数据流方法可以从这些文件中读取数据并写入 BigQuery。但是我有大量的小文件(每个文件 400MB),它们必须写入一个单独的表分区(分区编号约为 700)。这种方法对数据流来说很慢,因为我目前必须启动一个不同的数据流作业,以便使用 for 循环将每个文件写入单独的表。此方法运行了超过 24 小时,仍未完成。
那么有没有其他方法可以将这些具有多个字符分隔符的多个文件加载到 BigQuery 的每个分区?
【问题讨论】:
标签: google-bigquery google-cloud-storage google-cloud-platform google-cloud-dataflow