【发布时间】:2025-12-02 13:05:02
【问题描述】:
问题的标题说明了一切。我有一个要求,需要获取与特定列中的前 X(例如前 10)值相对应的行键。因此,我需要按所需的列值对 hbase 行进行排序。我不明白我应该怎么做,甚至是否可行。看来 hbase 并没有很好地迎合这一点。此外,它不允许开箱即用的任何此类功能。
Q1.我可以使用hbase-spark connector,在spark rdd中加载整个hbase数据,然后在里面进行排序吗?这会很快吗?连接器和火花将如何处理它?它会在单个节点或多个节点上获取全部数据并以分布式方式排序吗?
Q2。还有没有更好的方法来做到这一点?
Q3. 在 hbase 中完全可以撤消吗?我应该选择完全不同的框架/技术吗?
【问题讨论】:
-
基本上没有,这只是 HBase 如何存储数据的一个方面。如果您希望它更快,请将您的数据以 Parquet 之类的列格式存储。 HBase 针对随机访问进行了高度优化:为您的用例选择数据存储。
标签: apache-spark hbase