PHOENIX SPARK - BulkLoad 的 DataFrame

【问题标题】：PHOENIX SPARK - DataFrame for BulkLoadPHOENIX SPARK - BulkLoad 的 DataFrame
【发布时间】：2016-05-18 05:36:06
【问题描述】：

由于 Spark 作业，我有 1 亿条记录要插入 HBase 表 (PHOENIX)。我想知道我是否将它转换为 Dataframe 并保存它，它会进行批量加载（或）它不是将数据写入 Phoenix HBase 表的有效方法

【问题讨论】：

【解决方案1】：

来自：乔什·马奥宁

日期：2016 年 5 月 18 日，星期三晚上 10:29

主题：回复：PHOENIX SPARK - 用于 BulkLoad 的数据帧

收件人：user@phoenix.apache.org

嗨，

Spark 集成使用 Phoenix MapReduce 框架，该框架在后台将这些框架转换为分布在多个工作人员中的 UPSERT。

您应该尝试这两种方法，看看哪种方法最适合您的用例。值得一提的是，我们通常会使用 Spark 集成对这些数据大小进行加载/保存操作。

【讨论】：