【问题标题】:How to see contents of Hive orc files in linux如何在 linux 中查看 Hive orc 文件的内容
【发布时间】:2020-04-14 07:45:03
【问题描述】:

有没有办法查看 hive 0.11 及更高版本使用的 orc 文件的内容。我通常cat gz文件并解压缩它们以查看内容 例如:cat part-0000.gz |猪-d |更多的 注意:pigz 是一个并行的 gz 程序。

我想知道对于 orc 文件是否有类似的东西。

【问题讨论】:

  • 试试pigz -dz吧。
  • pigz 说输入没有被压缩
  • 文档说“编解码器可以是 Snappy、Zlib 或无。”。如果它是 zlib,并且您有正确的起点,那么 pigz -dz 将对其进行处理。可能是 Snappy,或者您可能没有正确的起点。

标签: linux bash compression hive


【解决方案1】:

2020 年更新答案

根据@Owen 的回答,ORC 已经长大,matured 是它自己的Apache projectORC Adopters 的完整列表显示了它现在在多种大数据技术中的流行程度。

感谢@Owen 和 ORC Apache 项目团队,ORC 的项目站点有一个完整维护的最新文档,关于在存储在 Linux 本地文件上的 ORC 文件上使用 JavaC++ 独立工具系统。它继承了原始 Hive+ORC Apache wiki page 的火炬。

原始答案日期:May 30 '14 at 16:27

Hive 自带 ORC 文件转储实用程序(0.11 或更高版本):

hive --orcfiledump <hdfs-location-of-orc-file>

Source link

【讨论】:

  • 不幸的是,实际输出数据(而不仅仅是元数据)的“-d”参数仅在 Hive 0.15 中可用。
  • FWIW,原来的 Hive+ORC wiki 页面现在包含一个表格,该表格标识了每个引入的 Hive 版本的新功能。 cwiki.apache.org/confluence/display/Hive/…
【解决方案2】:

现在还有一个适用于 Linux 和 MacOS 的本机可执行文件,它以 JSON 格式打印 orc 文件的内容。请参阅 ORC 项目 (http://orc.apache.org/) 并构建 C++ 工具。

% orc-contents examples/TestOrcFile.test1.orc

还有一个原生元数据工具:

% orc-metadata ../examples/TestOrcFile.test1.orc

ORC 项目还有一个独立的 uber jar,可以从 Java 中执行相同的操作。

% java -jar orc-tools-1.2.3-uber.jar data myfile.orc

【讨论】:

  • 这个工具很好用,而且运行顺畅。 hive --orcfiledump 命令需要 hdfs 中的 orc 文件。用户 jar 也适用于本地文件
【解决方案3】:

它还能够通过在 Linux 上运行的桌面应用程序查看 ORC 文件的内容。

有一个桌面应用程序可以查看Parquet 以及其他二进制格式数据,例如ORCAVRO。它是纯 Java 应用程序,因此可以在 Linux、Mac 和 Windows 上运行。详情请查看Bigdata File Viewer

支持数组、映射、结构等复杂数据类型

【讨论】:

    猜你喜欢
    • 2014-02-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-04-05
    • 2020-10-03
    相关资源
    最近更新 更多