【问题标题】:import metadata from RDBMS into Apache Atlas将元数据从 RDBMS 导入 Apache Atlas
【发布时间】:2020-08-18 18:12:16
【问题描述】:

我正在学习 Atlas 并试图找到一种方法从 RDBMS 中导入元数据,例如(Sql Server 或 Postgre Sql)。

有人可以提供参考或步骤吗?

我在 docker 中使用 Atlas,并在 HBase 和 Solr 中构建。目的是从 AWS RDS 导入元数据。

更新 1 改写我的问题。我们可以直接从 RDS Sql Server 或 PostgreSql 导入元数据,而无需在 hive (hadoop) 中导入实际数据吗?

感谢任何评论或回答。谢谢!

【问题讨论】:

    标签: apache-atlas


    【解决方案1】:

    AFAIK,Atlas 在 hive 元存储上工作。

    以下是how to do it in AWS Emr while creating the cluster it self. ... Metadata classification, lineage, and discovery using Apache Atlas on Amazon EMR的AWS文档


    这是从 sqoop 的角度来看的 Cloudera 源代码。

    来自 Cloudera 来源:Populate metadata repository from RDBMS in Apache Atlas question from Cloudera.

    1) 您在 Atlas 中创建新类型。比如Oracle的情况下,还有Oracle的表类型、列类型等
    2) 创建从源元数据存储中提取元数据的脚本或进程。
    3) 一旦您拥有要存储在 Atlas 中的元数据,您的流程将直接通过 REST API 使用 Java API 或 JSON 表示,基于新类型创建关联的 Atlas 实体。如果您愿意,您可以在存储新实体时为其添加血统。


    以下文档详细介绍了如何使用 sqoop 从任何 RDBMS 迁移到 hive。

    https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_data-access/content/using_sqoop_to_move_...

    你也可以参考这个:http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_literal_sqoop_import_all_tables_literal

    要将所有这些 sqoop 导入数据的元数据导入 Atlas,请确保正确设置以下配置。

    http://atlas.incubator.apache.org/Bridge-Sqoop.html

    请注意,如果您的集群配置由 Ambari 管理,则不需要上述配置步骤。

    【讨论】:

    • 谢谢!我知道 Atlas 使用 hbase 来存储元数据,但是是否有必要在 hive/hbase 等中导入数据库。我想使用 Apache Ranger 来强制授权、数据屏蔽等。因此至少现在看不到导入数据的任何用途来自关系型数据库。虽然它看起来像一个重复的数据存储。欢迎任何评论!
    • 这个问题很笼统。请具体并提出具有确切要求的新问题。否则,这将被 SO 标记为低质量问题
    【解决方案2】:

    使用 Rest API 是一种将 MySQL 元数据显示到 atlas 目录的好方法 其他方式使用 spark hive_support() spark -> read MySQL using JDBC -> write into hive ,或使用 sqoop

    为了帮助创建与 RDBMS 相关的实例、数据库、表、列,我创建了一个 GitHub 存储库 包含一个模板,可以帮助您了解如何将 RDBMS 或 MySQL 实体添加到图集

    https://github.com/vettrivikas/Apche-Atlas-for-RDBMS

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多