【问题标题】:How to start learning Google Cloud Dataflow? [closed]如何开始学习 Google Cloud Dataflow? [关闭]
【发布时间】:2015-06-03 12:13:28
【问题描述】:

我正在学习计算机工程。我正在考虑学习 Google Cloud Dataflow。

所以我想问作为 UG 的学生学习 Google Cloud Dataflow 是否很好。此外,我对大数据或 Hadoop 没有太多经验。

如果是,那我该如何开始学习呢?

【问题讨论】:

  • 也许您可以从 BigData 开始,这样您将通过 2-3 步进入 Hadoop,在了解它们是什么之后,您可以启动 Google Cloud Dataflow。网上有很多电子书,你一定能找到
  • 那么是不是先学习并具备一些hadoop和MapReduce框架的专业知识和知识,然后再开始使用Cloud Dataflow呢?
  • 请注意,MapReduce 模型(粗略地说,一个巨大的 SELECT 后跟一个巨大的 GROUP BY)是 Dataflow 提供的一个微不足道的特例(对它们进行操作的逻辑集合,MapReduce 只是可能的操作链之一)。您能否澄清一下您的学习目标是什么?您想学习在实践中处理大数据,您想学习相关的理论概念/算法,还是您想了解大数据处理框架内部是如何工作的?
  • 我想学习如何在实践和算法中处理大数据......以及在某种程度上框架是如何工作的。

标签: bigdata google-bigquery google-cloud-platform google-cloud-dataflow


【解决方案1】:

我们认为 Google Cloud Dataflow 是开始进行大数据分析的绝佳场所。我们从头开始构建它时考虑到了简单性和易用性。

了解其他数据处理技术(例如 MapReduce 或 Hadoop)有助于您入门,但它们不会对学习或使用 Cloud Dataflow 有很大帮助。然而,有了这样的背景,Cloud Dataflow 提供的全托管服务的好处就会更加明显。

我们的main page 是一个很好的起点。您将在那里找到所有相关信息。如有任何问题,请随时使用 google-cloud-dataflow 标记 StackOverflow 问题。

也就是说,Cloud Dataflow 服务目前处于 Alpha 阶段,仅限白名单用户访问。你可以apply to be whitelisted

【讨论】:

  • 如果我开始学习它,除了SDK我还需要其他资源吗?我的意思是运行或测试我的代码我需要花钱购买谷歌的其他云资源,比如谷歌计算引擎。?或者我可以像在离线基础上一样先学习它,然后在我具备专业知识后开始在实际场景中应用它?
  • 您可以在本地运行您的代码,但请记住,在大型数据集下它可能无法在本地运行良好。
猜你喜欢
  • 1970-01-01
  • 2010-09-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-02-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多