【发布时间】:2019-02-19 12:55:55
【问题描述】:
我正在通过 Google DataPrep 从 Google Cloud Storage (GCS) 导入几个文件,并将结果存储在 Google BigQuery 的表中。 GCS 上的结构如下所示:
//source/user/me/datasets/{month}/2017-01-31-file.csv
//source/user/me/datasets/{month}/2017-02-28-file.csv
//source/user/me/datasets/{month}/2017-03-31-file.csv
我们可以创建一个参数为outlined on this page的数据集。这一切都很好,我已经能够正确导入它。
但是,在这个 BigQuery 表(输出)中,我无法仅提取带有参数 month 的行。
因此,我如何使用 DataPrep 将这些数据集参数(此处为:{month})添加到我的 BigQuery 表中?
【问题讨论】:
-
您应该尝试在 Trifacta 论坛上提出这个问题(这是在 Google Dataprep 命名下运行的实际解决方案):community.trifacta.com/s/topic/0TO16000000g8CSGAY/…
-
谢谢,但我讨厌拥有两千个不同的帐户。
-
问题是您在生成的数据集中缺少文件名?
-
文件夹和另一个动态子文件夹的文件名和日期。我按数据类型和日期(yyyymmdd)存储文件。我希望这反映在表格中,因为我正在使用附加到表格,这样我就可以有效地过滤掉每日文件
标签: google-bigquery google-cloud-dataflow google-cloud-dataprep