【问题标题】:How to do major compaction on a transactional table in Spark?如何在 Spark 中对事务表进行主要压缩?
【发布时间】:2026-02-06 08:10:02
【问题描述】:

我有一个事务表,我想使用主要压缩在这个事务表上创建数据帧。但我不知道该怎么做。 那么,谁能告诉我在事务表上进行主要压缩的步骤?

【问题讨论】:

  • 请提供您遇到问题的代码示例。
  • 我不清楚你想做什么。 ?压缩是不影响任何功能的抽象活动。
  • 由于我的表是事务性的,所以我们不能直接使用spark来创建dataframe。有两种方法可以在事务表上创建数据框。一种是使用 JDBC,另一种是 Major compaction。 @ShivaKumarSS

标签: apache-spark hive


【解决方案1】:

您可能将hbasehive/spark 混为一谈:后者无需担心compaction(更不用说“主要”压缩)了。

【讨论】:

  • 由于我的表是事务性的,所以我们不能直接使用spark来创建dataframe。有两种方法可以在事务表上创建数据框。一种是使用 JDBC,另一种是 Major compaction。 @javadba
  • 你在说什么使用major compaction在事务表上创建数据帧。这不是火花概念或能力
  • 不是hive,而是hbase——如上所述hadoop-hbase.blogspot.com/2014/07/…