【问题标题】:Read from Hive tables and Write to Cassandra tables从 Hive 表读取并写入 Cassandra 表
【发布时间】:2020-10-06 17:13:39
【问题描述】:

我在 Cloudera 集群的 Hive 中有一些外部表,按 daily_date 列分区。

我还有 DataStax Enterprise Cassandra 集群,我在其中创建了与 Hive 表结构相同的表。

问题:我想将 Hive 表中的表数据导出/写入到相应的 Cassandra 表中。

是否有任何 Hive 到 Cassandra 连接器可用?或者我是否需要在 Spark 中执行此操作,如果是的话如何?这里的最佳做法/解决方案是什么?

我尝试用谷歌搜索很多不同的关键字,但没有找到任何正确/推荐的解决方案。

请指导。

【问题讨论】:

    标签: apache-spark hive cassandra cloudera spark-cassandra-connector


    【解决方案1】:

    只需将 Spark 与 Spark Cassandra Connector 一起使用,Dataframe APIs 更好。以described in Spark docs 访问Hive 中的数据,获取数据帧后,将其写入Cassandra。像这样的:

    // assuming that table is registered already:
    val df = sql("SELECT * from hive_table")
    df.write
      .format("org.apache.spark.sql.cassandra")
      .options(Map("table" -> "...", "keyspace" -> "..."))
      .save()
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-12-09
      • 2019-10-08
      • 1970-01-01
      • 2021-10-20
      • 1970-01-01
      • 2016-08-18
      • 1970-01-01
      • 2018-12-27
      相关资源
      最近更新 更多