【问题标题】:Convert JSON to ORC [AWS]将 JSON 转换为 ORC [AWS]
【发布时间】:2018-08-26 14:05:34
【问题描述】:

这是我的情况: 我有一个将 json 文件旋转到 s3 存储桶的应用程序。我需要将这些文件转换为 ORC 格式,以便从 Athena 或 EMR 查阅。 我的第一次尝试是在 Node 中编程的 lambda,但我没有找到任何用于转换的模块。 我认为使用 GLUE 或 EMR 可以更轻松地完成,但我找不到解决方案。

有什么帮助吗?

谢谢!

【问题讨论】:

  • 你见过orc-tools convert吗?应该能够使用它在 Jave 中编写 lambda。
  • @avigil 我要去调查一下,谢谢!

标签: amazon-s3 aws-lambda amazon-emr orc aws-glue


【解决方案1】:

您可以使用胶水。您将需要一个描述数据架构的粘合数据目录表,您可以使用粘合爬虫自动创建它。

然后创建粘合作业,如果您按照添加作业向导,您可以在向导的数据目标部分选择 ORC 作为数据输出格式。

如果您阅读有关 AWS 胶水的教程,它将引导您完成类似但转换为 Parquet 格式的操作,如果您对数据执行相同的步骤但选择 ORC,它应该可以满足您的需求。

【讨论】:

  • 任何平台无关的工具?
猜你喜欢
  • 2017-09-26
  • 2020-11-12
  • 2020-05-10
  • 2015-12-08
  • 2020-11-05
  • 2016-07-25
  • 2016-07-15
  • 2020-03-02
  • 1970-01-01
相关资源
最近更新 更多