【发布时间】:2014-04-21 16:14:47
【问题描述】:
我开始使用 Hive。 我想知道格式中的每种表格格式应该使用哪些查询: rcfile、orcfile、parquet、分隔文本
【问题讨论】:
我开始使用 Hive。 我想知道格式中的每种表格格式应该使用哪些查询: rcfile、orcfile、parquet、分隔文本
【问题讨论】:
当您的表包含大量列并且您倾向于经常使用特定列时,RC 文件格式将是一个不错的选择。您只需检索所需的列,而不是读取整行数据,从而节省时间。数据被分成几组行,然后再分成几组列。
分隔文本文件是通用文件格式。
【讨论】:
对于 ORC 文件格式,请查看 hive 文档,此处有详细说明:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
Parquet 文件格式以列的形式存储数据。 例如: Col1 Col2 1 乙二 C 3
普通数据存储为 A1B2C3。使用 Parquet,数据存储为 ABC123。 对于 parquet 文件格式,请阅读 https://blog.twitter.com/2013/dremel-made-simple-with-parquet
【讨论】:
我看到有几个答案,但由于您的问题没有要求任何特定的文件格式,因此答案针对的是一种或另一种文件格式。
您可以在 Hive 中使用多种文件格式。值得一提的是 AVRO、Parquet。 RCFile & ORC。如果您想比较这些文件格式的性能和空间利用率,可以参考一些在线文档。跟随一些有用的链接,可以让你继续前进。
This link from MapR [They don't discuss Parquet though]
上面给出的链接会让你继续前进。我希望这能回答您的问题。
谢谢!
【讨论】: