【发布时间】:2020-10-23 18:33:21
【问题描述】:
我必须使用基于 Spark 的大数据分析数据集(文本文件)进行比较,这些数据集非常相似 (>98%),但大小非常大。在做了一些研究之后,我发现最有效的方法可能是使用 delta 编码器。有了这个,我可以有一个参考文本并将其他文本存储为增量增量。但是,我使用的 Scala 不支持增量编码器,而且我完全不熟悉 Java。但是由于 Scala 可以与 Java 互操作,我知道可以让 Java lib 在 Scala 中工作。
我发现有希望的实现是xdelta、vcdiff-java 和bsdiff。通过更多搜索,我找到了最有趣的库,dez。该链接还提供了似乎表现非常好的基准,并且代码可以免费使用并且看起来很轻量级。
此时,我坚持在 Scala 中使用这个库(通过 sbt)。我将不胜感激任何建议或参考来解决这个障碍,无论是特定于这个问题(增量编码器)、库还是在 Scala 中使用 Java API。具体来说,我的问题是:
-
是否有我可以直接使用的增量编码器的 Scala 库? (如果没有)
-
是否可以将类文件/notzed.dez.jar 放在项目中,让 sbt 在 Scala 代码中提供 API?
我有点陷入这个泥潭,任何出路都将不胜感激。
【问题讨论】: