【问题标题】:Google Datastream (beta) issues with removing backfilling table from a stream从流中删除回填表的 Google Datastream(测试版)问题
【发布时间】:2021-10-15 20:23:17
【问题描述】:
我目前正在测试 Google Datastream 以将数据从 Cloud SQL 流式传输到 GCS,然后传输到 Big Query。一切都很好,但是一个 200m 行的表目前正在回填数据,我想停止这种情况,因为该表没有在使用中。
这是我迄今为止尝试过的:
-
从流中删除表格。到目前为止,这对所有桌子都有效,但这是我第一次在桌子回填时尝试它。
-
将表格添加到流中的 No-Backfill 选项。
-
暂停流,排空,然后重新启动流。
这些似乎都不起作用,有人在回填表格之前遇到过这个问题吗?
非常感谢,
标记。
【问题讨论】:
标签:
google-cloud-platform
google-data
google-datastream
【解决方案1】:
问题似乎是您用于回填的表中的行数。您曾说过它之前运行良好,并且仅在回填具有 2 亿行的表时才遇到问题。您正在使用 CloudSQL,因此您必须使用 MySQL,因为它是目前唯一支持的 Cloud SQL for Datastream。请注意,在使用 MySQL 作为数据库时,Datastream 有一些已知的限制,该限制表明不能回填超过 1 亿行的表。因此,我建议您将行数保持在 1 亿以内。您可以在this document 中找到有关使用 MySQL 作为 Datastream 源时的已知限制的更多信息。
【解决方案2】:
我只是想用 Google 支持的解决方案更新这张票。
一旦表开始了回填过程,那么目前您在回填完成之前无法停止此过程。
@Prabir 感谢您的回复——我认为 100m 行限制也只是没有数字主键——“不能回填超过 1 亿行且没有数字主键的表。 "
我已要求 Google 支持将在回填期间删除表格添加到更高版本,因为它仍仅处于 alpha 测试阶段,并且可以添加功能。
让我们看看在未来的版本中会如何...