【发布时间】:2019-12-13 00:54:04
【问题描述】:
我在 Google Cloud Storage 中有一个大文件,例如 100GB。替换此文件内容的字符串的最佳做法是什么?
一个简单的选择是:
- 使用本地 SSD 创建 GCE
- 下载到 GCE
- 运行
sed -i 's/old/new/g'文件名 - 上传回 GCS
【问题讨论】:
标签: sed replace google-cloud-platform google-cloud-storage large-data
我在 Google Cloud Storage 中有一个大文件,例如 100GB。替换此文件内容的字符串的最佳做法是什么?
一个简单的选择是:
sed -i 's/old/new/g'文件名【问题讨论】:
标签: sed replace google-cloud-platform google-cloud-storage large-data
另一种方法是使用数据流。但这对于简单地更新一个字段来说是巨大的……数据准备的 Sallee 事情。新的数据融合是可视化的,但使用 dataproc 执行,仍然过大。
如果您的文件在大查询中很容易加载,。在 GCS 中加载、转换并将结果导出为相同的格式...
你的解决方案是我认为最好的。
【讨论】: