【问题标题】:Google's BigQuery vs Azure data lake U-SQLGoogle 的 BigQuery 与 Azure 数据湖 U-SQL
【发布时间】:2016-04-25 18:29:02
【问题描述】:

我试图了解 Google 的 Big query 和 Azure data Lake U-SQL 之间的区别或优缺点。哪个更好 ?我已经详尽地搜索了最大的区别是什么,但找不到。

【问题讨论】:

    标签: azure google-bigquery google-cloud-platform azure-data-lake u-sql


    【解决方案1】:

    好的,这是两种技术之间的一些根本区别。

    数据形状

    1. Google big query - 他们要求您将数据转换为特定的 json、csv 或 Avro 等形状。
    2. 数据湖 - 他们只是要求您转储湖存储中的所有内容,然后您可以在其上运行 usql 查询。

    数据大小

    Google 大查询 对文件大小有限制 - https://cloud.google.com/bigquery/loading-data-into-bigquery#quota 尽管它们是相当大的限制

    数据湖 - 官方对文件大小没有限制,您实际上可以从 PB 文件开始。

    最大的区别在于查询模型,但在此之前必须知道你也可以在 Azure 数据湖存储之上运行 HBase 工作负载,而 HBase 实际上是 google 大表的开源实现,还有许多其他细微的区别你可以在这里看到http://www.larsgeorge.com/2009/11/hbase-vs-bigtable-comparison.html

    谷歌大查询本身并不是一个编译查询,而 USQL 是 SQL 类语法与 CLR 功能的组合,USQL 查询首先编译然后运行在数据存储上,这样就可以编写自定义函数与他们的查询一起使用来解析或处理不同形式的数据。 甚至可以使用 Azure 数据湖工具可视化 USQL 查询的执行计划。 Big query 和 USQL 都非常容易理解和使用。

    身份验证

    1. 谷歌大查询有标准的API认证 https://cloud.google.com/bigquery/authentication
    2. ADL - 应用程序和用户的身份验证由 Azure AD 控制。

    作为一个大数据平台,两者都需要尊重,但我个人认为 Azure Data Lake 是一个更好的实现,因为它可以灵活地与 Spark、storm、hive、pig 等开源项目一起工作,而大表限制了你的谷歌生态系统的功能。

    通过我的推特账号@brijrajsingh 与我联系,如果您可以在 GIDS 班加罗尔顺便拜访一下,我将在 2016 年 4 月 29 日举办一场关于数据湖的会议

    【讨论】:

    • AFAIK 你不能在 Parquet 文件上运行 USQL 查询(官方不支持)。
    猜你喜欢
    • 2017-07-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多