【发布时间】:2015-11-06 05:52:53
【问题描述】:
我想知道在 BigQuery 中备份数据的最佳策略是什么?
到目前为止,我们正在使用 BigQuery 存储来自不同来源的许多不同数据集。我们确实将原始数据(csv 文件)存储在一边,但从它们重新创建整个数据将是一项艰巨且耗时的任务。
有没有办法对项目中的所有数据集/表进行快照?
【问题讨论】:
我想知道在 BigQuery 中备份数据的最佳策略是什么?
到目前为止,我们正在使用 BigQuery 存储来自不同来源的许多不同数据集。我们确实将原始数据(csv 文件)存储在一边,但从它们重新创建整个数据将是一项艰巨且耗时的任务。
有没有办法对项目中的所有数据集/表进行快照?
【问题讨论】:
因此,如果您命名上下文,那么这里的问题大多是有意义的。
BigQuery 是一项托管服务,因此您的数据会被复制,并且您相信 Google Cloud 会始终提供这些数据。如果出现故障,BigQuery 工程师会处理这种情况,您无法启动回滚或修复或其他任何受管理的操作。
假设所有数据都以某种方式被清除(大地震 + 轰炸袭击了多个数据中心等),如果您没有重新构建的源,您的数据就会丢失。这也适用于您保管的其他数据,而不仅仅是 BQ 项目。也许您的 CEO 凭证被黑客首先清除了您的所有备份,然后是您当前的实例,因此公司的所有数据都丢失了,并且您无法将任何数据重建回正常状态,因为您不再有备份。
为了应对 BQ 服务关闭、Google 关闭其服务或任何更糟糕的情况等最终灾难做好准备,您需要进行备份以重建数据。如果您保留原始文件并能够重放它们就足够了。我们通常将其存储为几年后我们可能会考虑将所有其他数据重新定位到不同的提供者,例如:天网数据中心等 :) 并且我们可以再次使用它们来重放我们的数据库状态。
你可以export the BigQuery tables 和数据到谷歌云存储,你可以从那里移动到任何你想要冷存储等的地方……你也可以在你想恢复时导入最大 5TB 的文件。
【讨论】: