【问题标题】:What is exactly the need of spark when using talend?使用 talend 时,spark 到底需要什么?
【发布时间】:2021-02-16 10:13:32
【问题描述】:

我是 spark 和 talend 的新手。

但我到处都读到这两个都是 ETL 工具。我读了另一个stackoverflow答案here。从另一个答案中,我了解到 talend 确实使用 spark 进行大数据处理。但是,不使用引擎盖下的 spark,talend 是否可以像 spark 一样高效地完成所有 ETL 工作?还是它本质上是 spark 的包装器,所有发送到 talend 的数据实际上都放在 talend 内部的 spark 中进行处理?

我对此感到很困惑。有人可以澄清一下吗?

【问题讨论】:

    标签: apache-spark etl talend


    【解决方案1】:

    与 Informatica BDM 不同,Informatica BDM 有自己的 Blaze 框架用于在 Hadoop(本机)上进行处理,Talend 依赖于其他框架,例如 Map Reduce(Hadoop 可能在下面使用 tez)或 Spark 引擎。所以你可以避免使用 Spark,但这样做的意义不大。关键是我们可以期待使用 Talend 提高生产力,因为它是基于图形的,当有许多领域并且您可能不需要最熟练的员工时,这很方便。

    对于 NOSQL,如 HBase,它们提供特定的连接器或可以使用 Phoenix 路由。 Talend 也有用于 KAFKA 的连接器。

    【讨论】:

    • 所以如果我说 talend 是一个类似 nifi 的流量管理系统,我错了吗?
    • 是的,我最近与 NIFI 合作过,我很喜欢它。但它不是一个 ETL 工具,它是一个轻量级的数据移动器,它有很多东西,但不要尝试将它用于类型 2 维度处理。
    • 但即使在 Talend 中,巨大的处理也是通过 spark、storm 或某些框架完成的,对吧?不会为 Nifi 构建一些连接器(不确定是否存在某些解决方案)以触发或其他一些处理工具会使它们相同?
    • 不,NIFI 只是从源 x 传输到目标 y 并轻轻转换数据以进行进一步处理。但这是一个 NSA 项目,它仍然可以做很多事情,但不是真正的 ETL
    • 还有一件事……Talend 在从 MySQL、REST API 等各种数据源实时获取数据方面与 Nifi 一样好。还是 talend 更像是一种批处理工具?跨度>
    【解决方案2】:

    Spark 只是 Talend 支持的框架之一。创建新作业时,您可以从下拉列表中选择 Spark。您可以获取更多详情in the docs

    【讨论】:

    • 那么 talend 作为 ETL 工具是否可以在没有任何框架如 spark 或storm 的情况下执行这些庞大的数据处理?它是否有任何内置的框架或库或工具来处理大数据?
    • 我不这么认为,我知道将 Talend 用于大数据的唯一方法是 Hadoop。让我引用文档:“但是,为了获得 Hadoop 的好处,数据分析师需要一种将数据加载到 Hadoop 中并随后从这个开源系统中提取数据的方法。这就是 Talend studio 的用武之地。建立在 Talend 的数据之上集成解决方案,Talend Studio 使用户能够通过利用 Hadoop 及其数据库或 HBase、HCatalog、HDFS、Hive、Oozie 和 Pig 等技术轻松处理大数据。” help.talend.com/r/C8mznD9TYsuB~SWG77PPDQ/cS88RTvurLwC5HyV_LPsnA
    • 但我可能错了,我不是 Talend 的忠实粉丝。也许有人可以为您提供更多有用的建议。
    猜你喜欢
    • 2013-01-11
    • 1970-01-01
    • 2012-10-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-01-31
    • 1970-01-01
    • 2022-11-10
    相关资源
    最近更新 更多