【发布时间】:2021-06-16 04:59:14
【问题描述】:
我正在从 GCS 对象(使用 csv 和 json 文件类型(在单独的表中))将数据提取到 BigQuery 表中,我想执行数据验证,因此在将文件上传到 GCS 期间,我已将行数存储在文件元数据中,现在之后摄取完成,我想验证摄取表中的行数是否与文件元数据中的行数匹配。
注意:我想在 UDF 中使用 js 可用性,但它不允许我们使用外部库
更新:
根据介质上的这篇文章,他们说我们可以通过将编译的 js 包作为 .js 文件发布到 Cloud Storage 并使用 UDF 中的选项调用它来使用外部库
由于对js一窍不通,不知道怎么看这篇文章。
注意:我还在文章中发布了一个代码片段。
https://hoffa.medium.com/new-in-bigquery-persistent-udfs-c9ea4100fd83
CREATE OR REPLACE FUNCTION x.nlp_compromise_number(str STRING)
RETURNS NUMERIC LANGUAGE js AS '''
return nlp(str).values(0).toNumber().out()
'''
OPTIONS (
library="gs://fh-bigquery/js/compromise.min.11.14.0.js");
【问题讨论】:
-
stackoverflow.com/questions/63073217/… 这个问题试图解决这个问题,但没有提到任何关于 UDF 的内容
标签: google-cloud-platform google-bigquery google-cloud-storage