【发布时间】:2022-02-04 05:43:04
【问题描述】:
遵循数据流教程后,我使用 pub/sub topic to big query 模板将 JSON 记录解析为表。该作业已流式传输 21 天。在那段时间里,我摄取了大约 5000 条 JSON 记录,包含 4 个字段(大约 250 个字节)。
本月账单来了之后,我开始调查资源使用情况。我使用了 2,017.52 vCPU 小时,内存 7,565.825 GB 小时,总 HDD 620,407.918 GB 小时。
对于我一直在摄取的少量数据来说,这似乎高得离谱。在使用数据流之前我应该拥有最少的数据量吗?对于小型机箱,它似乎过于强大。是否有另一种从 pub 子主题中提取数据的首选方法?设置使用较少资源的数据流作业时是否有不同的配置?
【问题讨论】:
标签: google-cloud-platform google-cloud-dataflow google-cloud-pubsub google-cloud-iot