【问题标题】:Google Cloud Platform谷歌云平台
【发布时间】:2020-06-02 23:55:12
【问题描述】:

我正在使用 AutoML 构建分类模型,但我有一些关于 GCP 的基本使用问题。

1 - 数据隐私问题;如果我们保存行为数据以在 BigQuery 中训练我们的模型,Google 是否可以访问该数据? Google 能否使用这些数据来详细了解我们从中收集数据的个人的行为?

2 - 由于培训费用按小时计费,我想了解数据和培训时间之间的关系。时间是否随着训练数据集的大小线性增加?例如,我们使用 1.7MB 的数据训练了一个分类,耗时 3 小时。那么,用 17MB 的数据训练一个模型需要 30 个小时吗?

3 - 批量预测的费用为每小时 1.16 美元。但是,我们的数据在 csv 中,似乎我们无法上传 csv 来进行批量预测。因此,我们将尝试使用 API。因此我有两个问题:A) 我们可以使用 API 进行批量上传吗?B) 相关费用是多少?

4 - 什么是在线预测?

5 - 使用成本计算器(用于机器学习)时,什么是节点小时?

【问题讨论】:

  • 每个帖子问一个问题。可以创建多个问题。 Stack Overflow 用于编程问题。阅读本文以帮助改善您的问题:*.com/help/how-to-ask

标签: google-cloud-platform automl


【解决方案1】:

1- 正如Data Usage FAQ 中所述,Google 不会将您的任何内容用于任何目的,除非是为您提供 Cloud AutoML 服务。

2- 训练模型所需的时间取决于训练数据的大小和复杂性,有关详细说明,请查看 Vision documentation 示例。

3- 您需要将 csv 文件上传到 Google Cloud Storage,然后您可以在 API 或任何可用的客户端库中使用它。例如,请参阅Natural Language batch prediction。有关成本,请查看所需产品的文档。 AutoML 定价取决于您使用的功能:VisionNatural LanguageTranslationVideo Intelligence

4- 创建(训练)模型后,您可以部署模型并请求在线(单次、低延迟和实时)预测。 Online predictions 接受一行数据并根据您的模型为该数据提供预测结果。当您需要预测作为业务逻辑流的输入时,您可以使用在线预测。

5- 您可以将节点视为单个虚拟机,其资源用于计算目的。机器类型因使用的产品和用途而异。例如在image classification 中,AutoML Vision Image Classification 模型训练的成本为每节点每小时 3.15 美元,每个节点相当于一台 n1-standard-8 机器,连接了 NVIDIA Tesla V100.GPU。那么,节点小时就是该节点一小时使用的资源。

【讨论】: