【发布时间】:2016-08-27 12:48:02
【问题描述】:
我正在对不同 Parquet 模式和不同 Cassandra 表布局进行分析/比较。
其中一个输出是磁盘上的存储大小。
我想确保我对 Cassandra 公平,因此我想确保删除快照并且“完全”运行压缩。
我的数据最初在 Parquet 中,我使用 Spark SQL 读取它,有一个大数据框,然后我使用 Spark-Cassandra 连接器将其写入 C*。
我应该运行什么类型的“命令”(我假设使用 nodetool)来删除快照、运行压缩,然后在我的表的磁盘大小上获得一个精确的数字?
【问题讨论】:
标签: cassandra apache-spark-sql