【发布时间】:2016-06-29 05:20:42
【问题描述】:
我知道 Cassandra 是一个 NoSQL 数据库,用许多索引对其进行修补不是可行的方法,但我正在为我的分析集群寻找解决方案,而不是为生产/实时集群寻找解决方案。
所以我认为添加索引以减少 Spark 过滤的数据量是有意义的。
原生 Cassandra 二级索引与 Lucene 的索引相比如何?
许多功能仅靠 Cassandra 是不可用的,但是你可以同时使用这两者的功能呢?
只使用 Lucene 更好/有意义吗?
我看到的另一个优势是我可以只在我的分析集群上安装 Lucene,而不会用索引使实时集群过载(从而提高那一侧的写入性能)。
【问题讨论】:
-
您的分析用例到底是什么?为什么您认为您需要 NoSQL 作为 Spark 的存储层? Spark 会对该存储执行任何写入操作吗?您是否需要数据的搜索功能(Lucene)?或者只是处理简而言之,请提供更多信息...
-
Spark 可能会进行一些写入,但这不是最常见的用例。我不需要“搜索”功能,而是需要
where谓词功能。