Apache Spark/Scala 批量插入/更新到 HBASE答案

【问题标题】：Apache Spark/Scala Bulk inset/update to HBASEApache Spark/Scala 批量插入/更新到 HBASE
【发布时间】：2017-12-27 18:55:52
【问题描述】：

下面是我的场景：

最初使用 Sqoop 将数据加载到 HBASE（已完成）
现在，我将每天获得一批数据（大约 600000 条记录），这是新数据（用于将新记录插入 HBASE）和旧数据（用于更新 HBASE 现有记录）的组合。现在我的问题是：

如何使用 Spark/scala 到 Hbase 表执行此操作。

非常感谢您早日回复。

谢谢苏维克

【问题讨论】：

【解决方案1】：

我建议您阅读this question 的答案以了解概况。

在my answer 那里，我提到了几个你可以使用的选项：

由于您使用的是 Spark 1.6.1，因此您可以使用其中的任何一个。在 hbase-spark 中使用 DataFrame 的示例可以在 here 找到，而 Spark-on-HBase 的类似示例可以在 here 找到。

【讨论】：

嗨 Anton：如果我使用 Hive-on-Hbase 包 (yum install hive-hbase) 进行批量插入/更新操作，那么哪个 API 会提供更好的性能？我可以通过 Spak itsel 执行这个命令。