【发布时间】:2019-08-02 06:43:43
【问题描述】:
有一个用例,我必须读取巨大的 Parquet 文件并转换为 Rocksdb 二进制文件,所以我决定使用 spark(因为我团队中的每个人都熟悉它)。
从 Rocksdb 方面我知道它不是分布式的,你不能并行化。
所以我所做的是我为每个任务使用 Spark 并行创建了多个 Rocksdb 实例。
现在我想将它们组合在一起。所以我的问题是,是否可以将 Rocksdb 的多个实例组合在一起以使用一些后处理创建一个大型 Rocksdb 实例?
【问题讨论】:
-
rocksdb 实例有多大?您在下面说“数据非常庞大,我们无法将所有数据收集到驱动程序端”所以您没有回答您的问题“是否可以合并多个Rocksdb实例一起创建一个大的 Rocksdb 实例” 已经?
-
是的@JacekLaskowski 这是正确的,但它可以驻留在具有大约 1TB SSD 的单台机器上。问题不在于,只是想办法让我的处理并行化。
-
已经有一段时间没有询问估算值了(现在是多次)。我们真的能知道一个数字吗?还有系统配置,例如 cpu、内存、spark 磁盘以及实际使用 Rocksdb 的节点。
标签: apache-spark rocksdb distributed-database rocksdb-java