【问题标题】:Apache Spark/Scala Bulk inset/update to HBASEApache Spark/Scala 批量插入/更新到 HBASE
【发布时间】:2017-12-27 18:55:52
【问题描述】:

下面是我的场景:

  1. 最初使用 Sqoop 将数据加载到 HBASE(已完成)
  2. 现在,我将每天获得一批数据(大约 600000 条记录),这是新数据(用于将新记录插入 HBASE)和旧数据(用于更新 HBASE 现有记录)的组合。现在我的问题是:

如何使用 Spark/scalaHbase 表执行此操作。

非常感谢您早日回复。

谢谢 苏维克

【问题讨论】:

  • 您使用的是哪个 API(RDD、DataFrames、Datasets)和 Spark 版本?
  • 嗨 Anton,我使用的是 spark 版本 1.6.1,API 是 dataframe。
  • 如果您提供任何示例代码,那将真的对我有帮助。

标签: scala apache-spark hbase


【解决方案1】:

我建议您阅读this question 的答案以了解概况。

my answer 那里,我提到了几个你可以使用的选项:

由于您使用的是 Spark 1.6.1,因此您可以使用其中的任何一个。在 hbase-spark 中使用 DataFrame 的示例可以在 here 找到,而 Spark-on-HBase 的类似示例可以在 here 找到。

【讨论】:

  • 嗨 Anton:如果我使用 Hive-on-Hbase 包 (yum install hive-hbase) 进行批量插入/更新操作,那么哪个 API 会提供更好的性能?我可以通过 Spak itsel 执行这个命令。
猜你喜欢
  • 2018-06-26
  • 2014-11-25
  • 2012-02-16
  • 1970-01-01
  • 1970-01-01
  • 2016-05-04
  • 2023-03-21
  • 1970-01-01
  • 2016-05-02
相关资源
最近更新 更多