【发布时间】:2020-12-11 07:16:48
【问题描述】:
我最近启动了一项 Dataflow 作业,从 GCS 加载数据并通过 DLP 的标识模板运行它,并将屏蔽数据写入 BigQuery。我找不到 Google 提供的批处理模板,因此使用了流式处理模板(参考:link)。 我看到只有 50% 的行被写入目标 BigQuery 表。管道处于运行状态,一天内没有任何活动。
【问题讨论】:
-
能否分享一下Dataflow版本?谢谢!
-
我使用了 Dataflow UI 并选择了 Google 提供的模板。以下是作业信息中的详细信息:goog-dataflow-provided-template-name:stream_dlp_gcs_text_to_bigquery; goog-dataflow-provided-template-version:2020-08-10-01_rc00; userAgent:Apache_Beam_SDK_for_Java/2.20.0(JDK_11_environment)
标签: google-cloud-platform google-bigquery google-cloud-storage google-cloud-dataflow google-cloud-dlp