【发布时间】:2019-01-26 04:25:52
【问题描述】:
更新:最近发布的org.apache.beam.sdk.io.hbase-2.6.0 似乎包含HBaseIO.readAll() api。我在谷歌数据流中测试过,它似乎工作正常。在 Google Cloud Dataflow 设置中直接使用HBaseIO 会有什么问题或陷阱吗?
BigtableIO.read 将PBegin 作为输入,我想知道是否有类似SpannerIO 的readAll API,其中BigtableIO 的读取API 输入可能是PCollection 的ReadOperations(例如,扫描),并从ReadOperations 中生成PCollection<Result>。
我有一个用例,我需要进行多次前缀扫描,每次扫描都有不同的前缀,并且具有相同前缀的行数可以小(几百)或大(几十万)。如果没有像 ReadAll 这样的东西已经可用。我正在考虑使用DoFn 进行“限制”扫描,如果限制扫描未到达键范围的末尾,我会将其拆分为更小的块。在我的例子中,键空间是均匀分布的,所以剩余的行数可以通过最后扫描的行很好地估计(假设所有小于最后扫描的键的键都从扫描中返回)。
如果之前有人问过类似问题,请道歉。
【问题讨论】:
-
我们的问题一模一样!!
标签: google-cloud-dataflow google-cloud-bigtable