【发布时间】:2019-12-11 17:17:53
【问题描述】:
我不确定这是正确的标题,因此请随时提出修改建议。顺便说一句,我对 Scala 和 Spark 真的很陌生。
基本上,我的 DF df_1 看起来像这样:
| ID | name | city_id |
| 0 | "abc"| 123 |
| 1 | "cba"| 124 |
...
city_id 是一个巨大的 HBase 中的一个键:
123;纽约; .... 124;洛杉矶; ....等等。
结果应该是df_1:
| ID | name | city_id |
| 0 | "abc"| New York|
| 1 | "cba"| Los Angeles|
...
我的方法是在 HBase 之上创建一个外部 Hive 表,其中包含我需要的列。但话又说回来,我不知道如何以最有效的方式加入他们。
我想有一种方法可以直接从 HBase 执行此操作,但我不知道如何操作。
感谢任何提示。 :)
【问题讨论】:
标签: scala apache-spark hive hbase