【问题标题】:Is it possible to load Hive data into Vora?是否可以将 Hive 数据加载到 Vora 中?
【发布时间】:2016-06-02 04:07:42
【问题描述】:

我查看了开发者指南,但没有找到答案。到目前为止,我能够将 CSV 和 ORC 文件从 HDFS 加载到 Vora,但能够从 Hive 加载?

在没有将 Hive 指定为源的情况下,我尝试使用等于 /apps/hive/warehouse/tablename/00000_0(或任何部分文件名)的“路径”。但是,如果 Hive 表由 /tablename/ 目录中的多个文件表示,我必须在“路径”中明确列出它们,这不是一个理想的选择。有没有更好的办法?

更新:这个问题的上下文是,虽然 Vora 不提供数据持久性,但我想使用 Hive 仓库作为持久性层,最终仍然是文件,但有一些额外的组织。在 SAP 生态系统中使用 Hadoop,我可以利用带有 Hive 适配器的 SAP 数据服务将文件从外部加载到 Hadoop(如果需要,将数据从 Hadoop 转储到文件中),并通过 Vora 提供这些数据。

【问题讨论】:

  • SAP Vora 构建在 Spark 之上,因此可以使用 Spark 完成的任何事情都可以使用 Vora 完成。据我所知,Vora 并没有物理存储任何数据,它只是在内存表中创建。因此,如果您希望将数据存储在 Hadoop 中,那么我会将它们保存在 Hive 表中,但如果您希望使用 Vora 作为 Hadoop 之外的提取工具,那么情况就完全不同了。你想做什么?
  • @TheRandomSuit 我知道 Vora 和 Spark 都不提供数据持久性。这正是我想使用 Hive 仓库作为持久层的原因(最终还是文件,但有一些额外的组织)。这样我就可以利用例如带有 Hive 适配器的 SAP 数据服务将文件从外部加载到 Hadoop(如果需要,将数据从 Hadoop 转储到文件中)。有意义吗?
  • 是的,这是有道理的。你应该用这个额外的上下文更新你的问题。

标签: hive sap hana vora


【解决方案1】:

没有自动方式将 Hive 表加载/迁移到 Vora。基于 HDFS 中的(Hive 组织的)文件创建 Vora 表将是可行的方法。

paths 选项允许使用通配符 * 从 HDFS 中的特定目录加载所有文件。这适用于 csv、parquet、orc。例如。 paths "/path_to_my_dir1/*,/path_to_my_dir2/*"

【讨论】:

  • 看起来我的 hive.exec.stagingdir 设置不正确(默认情况下)并且暂存目录出现在 Hive 的表目录中,因此破坏了 Vora 的通配符处理
猜你喜欢
  • 2013-04-20
  • 2019-02-02
  • 2021-12-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-12-08
  • 2015-03-20
  • 1970-01-01
相关资源
最近更新 更多