【问题标题】:Spanner to CSV DataFlowSpanner 到 CSV 数据流
【发布时间】:2020-12-29 07:28:52
【问题描述】:

我正在尝试将表从扳手复制到大查询。我创建了两个数据流。一种从 spanner 复制到文本文件,另一种将文本文件导入 bigquery。

表有一个以 JSON 字符串作为值的列。在从文本文件导入到 bigquery 时运行数据流作业时会出现问题。作业抛出以下错误:

INVALD JSON: :1:38 预期 eof 但发现,“602...

无论如何我可以在复制时排除此列,或者我可以以任何方式复制 JSON 对象吗?我尝试在架构文件中排除此列,但没有帮助。

谢谢!

【问题讨论】:

    标签: google-cloud-platform google-bigquery google-cloud-dataflow google-cloud-spanner


    【解决方案1】:

    看看https://cloud.google.com/dataflow/docs/guides/templates/provided-batch#cloud-spanner-to-cloud-storage-text,BigQuery 导入作业有一些选项允许跳过列,Cloud Spanner 选项也没有在提取时跳过列。

    我认为你最好的办法是编写一个自定义处理器来删除列,类似于Cleaning data in CSV files using dataflow

    它更复杂,但您也可以尝试 DataPrep:http://cloud/dataprep/docs/html/Drop-Transform_57344635。应该可以将 DataPrep 作业作为 DataFlow 模板运行。

    【讨论】:

      猜你喜欢
      • 2020-02-05
      • 2018-12-27
      • 2018-12-31
      • 2019-01-02
      • 2019-07-13
      • 2018-01-23
      • 1970-01-01
      • 2014-05-01
      • 2018-09-02
      相关资源
      最近更新 更多