【发布时间】:2020-04-03 23:37:21
【问题描述】:
我在 Big Query 中有一个用于监控目的的表。此表至少显示以下信息(字段):
+--------------------------------+-----------+---- --------+--------+----------------+ |时间戳 |数据类型 |文件名 |状态 |加载记录 | +--------------------------------+-----------+---- --------+--------+----------------+ | 2020-04-02 19:51:11.822674 UTC |啊 |例如 |好的 |第2293章 | 2020-04-02 20:00:06.261044 UTC | bb | g.gz |好的 | 25 | | 2020-04-02 20:02:07.304114 UTC |抄送| cd.csv |好的 | 298 | | 2020-04-02 20:09:26.708910 UTC | dd | ab.csv |好的 | 49448 | | 2020-04-02 20:31:00.662977 UTC |呃 |广告.csv |好的 | 4805 | | 2020-04-02 20:37:41.459875 UTC | ff | f.bz |好的 | 245 | +--------------------------------+-----------+---- --------+--------+----------------+Timestamp 是系统收到文件时的时间戳
Data_type 表示系统从数据源收集的数据类型和信息来源。数据类型还指示每个数据源预期的文件数量,并且它们因源而异。有些来源预计每小时生成一次,有些每天生成一次,有些每 15 分钟生成一次,有些每 5 分钟生成一次。
假设上表中的data_type aa和bb每5分钟产生一次;因此预期的发生是每小时 12 个文件。数据类型 cc 和 dd 每小时生成一次,data_type ee 和 ff 每天生成一次。
Filename 是与数据类型关联的文件的名称。因此,该文件每小时或每天在报告中出现的频率取决于数据类型。准确地说,如果它与数据类型 aa 和 bb 相关联,则该数据类型每小时将显示 12 个文件或每天显示 288 个文件。对于每小时数据类型,例如 cc 和 dd,预计每小时一次或每天 12 次,依此类推。
由于各种原因,不时会发现文件丢失,这将影响数据质量。
我想在所需的时间段内统计每种数据类型的丢失文件;可能是每小时(适用于每小时数据类型)、每天(适用于所有数据类型)和每月(适用于所有数据类型)。这将使用 Google DataStudio 或 tableau 等可视化工具进行可视化。
预期结果(表格)将是
日期(或日期时间)数据类型 count_missing_files
我该怎么做? bq 中的新表,对此的查询是什么? 我可以直接通过添加逻辑的可视化而不是创建新表来简单地做到这一点吗?如果是,该怎么做?
任何帮助将不胜感激。
【问题讨论】:
标签: sql google-bigquery tableau-api google-data-studio