【问题标题】:What does Sqoop 2 provide that Sqoop 1 does not?Sqoop 2 提供了哪些 Sqoop 1 没有提供的功能?
【发布时间】:2016-12-30 00:15:31
【问题描述】:

根据 sqoop.apache.org,Sqoop 2 的功能不完整,不应用于生产系统。很公平,有些人可能想在他们的测试环境中测试 Sqoop 2 的新功能。

Cloudera 对 Sqoop 1 和 Sqoop 2 (https://www.cloudera.com/documentation/enterprise/5-8-x/topics/cdh_ig_sqoop_vs_sqoop2.html) 进行了功能比较,但根据页面,Sqoop 2 没有提供 Sqoop 1 不提供的任何内容。

那么,为什么有人会以目前的形式使用 Sqoop 2?它比 Sqoop 1 有什么优势吗?如果不是,为什么它可以使用?提前致谢!

【问题讨论】:

    标签: hadoop sqoop cloudera-cdh


    【解决方案1】:

    作为一个简短的说明:

    根据Cloudera(截至 2017 年 11 月)

    注意:Sqoop 2 已被弃用。 Cloudera 建议使用 Sqoop 1。

    【讨论】:

    • 这是我第一次看到后续版本已被弃用但之前的版本是稳定的:-P
    • 真的很奇怪,他们是丢了代码还是架构不好哈哈
    【解决方案2】:

    Apache Sqoop 使用客户端模型,用户需要在客户端上安装 Sqoop 以及连接器/驱动程序。 Sqoop2 使用基于服务的模型,其中连接器/驱动程序安装在 Sqoop2 服务器上。此外,所有配置都需要在 Sqoop2 服务器上完成。

    从 MR 的角度来看,另一个区别是 Sqoop 提交仅 Map 作业,而 Sqoop2 提交 MapReduce 作业,其中 Mappers 将从源传输数据,而 Reducers 将根据指定的源转换数据。这提供了一个干净的抽象。在 Sqoop 中,传输和转换均仅由 Mappers 提供。

    Sqoop2 的另一个主要区别是从安全角度来看。管理员将设置到源和目标的连接,而操作员用户使用已经建立的连接,因此操作员用户不需要知道有关连接的详细信息。并且操作员将只能根据需要访问部分连接器。

    【讨论】:

    • 感谢您的回答,其中包括 Map 和 MapReduce 的区别。这是一个很好的点,抽象更干净。
    【解决方案3】:

    Sqoop2 稳定版本中预期的一些功能:

    1. 一个易于使用的 GUI,可作为现有命令行的补充。
    2. 安全修复,如公开共享密码等待修复
    3. 更轻松的调试和更好的日志记录。
    4. 为不遵循 JDBC 模型的连接器提供支持。

    目前没有可用的 sqoop 2 稳定版本。但是您可以构建最新项目来测试产品并提交到开放项目(如果有兴趣)。


    参考:

    Sqoop2 proposal

    Features and releases

    【讨论】:

    • 感谢您的回答和来源,由于功能列表,我已接受您的回答作为最接近我正在寻找的答案。但是,我想这些都是最终的功能——您能否详细说明 Sqoop 2 目前存在哪些功能?谢谢!
    • Hbase 连接器(KiteConnector) 支持,执行引擎更新(MR) 和Kerberos 支持。只有在稳定版本发布后,我们才会知道完整的列表。 Sqoop Roadmap
    猜你喜欢
    • 2014-02-21
    • 2019-07-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-04-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多