【发布时间】:2019-03-09 08:38:28
【问题描述】:
设置:
从 pubsub 读取 -> 30 秒窗口 -> 按用户分组 -> 组合 -> 写入云数据存储
问题:
我看到 DataStoreIO 写入器错误,因为具有相似键的对象存在于同一事务中。
问题:
我想了解我的管道在 group by/combine 操作之后如何将结果组合成包。我希望在合并后为每个窗口创建捆绑包。但显然,一个捆绑包可以包含超过 2 次出现的同一用户?
重新执行(重试)捆绑包会导致此行为吗?
此捆绑是否依赖于跑步者?
是否可以选择重复数据删除?如果是这样,我将如何最好地解决这个问题?
请注意,我不是在寻找管道末端的数据存储写入器的替代品,我已经知道我们可以使用不同的策略。我只是想了解捆绑是如何发生的。
【问题讨论】:
-
啊,这是一个很好的问题。 TBH 我不知道,但我会尽我所能找到一个在这里做的人。
-
非常感谢@pablo! :)
-
抱歉耽搁了。明天会尝试得到一些东西!
-
好的,我四处打听。我希望答案是有帮助的。
标签: google-cloud-dataflow apache-beam