【发布时间】:2025-12-12 18:00:01
【问题描述】:
我们正在寻求部署一个报告解决方案,其中数据存储在 HIVE/Hadoop 数据层中,报告层将使用 SSRS 查询该数据层。
现在考虑性能优化,考虑到我们将在 HIVE 上使用 ORC 文件格式,考虑在数据层上进行索引是否有意义。
根据下面的一些参考资料,看起来索引是 ORC 文件格式固有的?是这种情况还是有什么不同。
我是 HIVE/Hadoop 的新手,所以如果有任何建议,我将不胜感激。谢谢!
【问题讨论】:
-
你不需要ORC来使用INDEX...cwiki.apache.org/confluence/display/Hive/…
-
如果您在 Cloudera 环境中,Impala 中的 Parquet 将比 Hive 性能更高,但如果您有带有 LLAP 的 Hive2,ORC 可能会很好。分区也是一种优化...
-
感谢 cricket_007 的输入,这很好,你提到“你不需要 ORC 来使用 INDEX..”。但是,我的问题更多是围绕我们使用 ORC 格式以及将索引与 ORC 格式一起使用是否有意义的事实,因为似乎 ORC 格式本身具有一些固有的索引。谢谢。
-
我确定可以做到(不记得我是否亲自做过)。当然,它可能会带来一些性能提升。
标签: hadoop indexing hive ssrs-2012