【问题标题】:Google DataFlow API for ingesting HLL_COUNT.INIT into BigQuery用于将 HLL_COUNT.INIT 提取到 BigQuery 的 Google DataFlow API
【发布时间】:2017-05-26 16:32:05
【问题描述】:

我正在向 PubSub 发送数据,我正在尝试创建 DataFlow 作业以将数据放入 BigQuery。 我在数据中有一个我想做的唯一列 HLL_COUNT.INIT 在 DataFlow 端是否有等效的方法,以便我可以将 HLL 版本的列直接存储在 BigQuery 中?

【问题讨论】:

  • 我和 spark 有同样的用例

标签: google-bigquery google-cloud-dataflow


【解决方案1】:

不,DataFlow 不支持 BigQuery HLL 草图格式,但它显然是有用的。我在 DataFlow 问题跟踪器中为其创建了功能请求:https://issuetracker.google.com/62153424

更新:HyperLogLog++ 的 BigQuery 兼容实现已开源到 github.com/google/zetasketch 和设计文档 (docs.google.com/document/d/...)关于将其集成到 Apache Beam 中的信息已发送至 dev@beam.apache.org。

【讨论】:

猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-09-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多