【发布时间】:2017-04-04 14:32:22
【问题描述】:
我将 XML 文件存储在 AWS S3 存储桶中。我想提取 XML 元数据并加载到 HDFS 上的 HIVE 表中。是否有任何工具可以帮助加快这项活动?
【问题讨论】:
标签: amazon-web-services amazon-ec2 hive hiveql emr
我将 XML 文件存储在 AWS S3 存储桶中。我想提取 XML 元数据并加载到 HDFS 上的 HIVE 表中。是否有任何工具可以帮助加快这项活动?
【问题讨论】:
标签: amazon-web-services amazon-ec2 hive hiveql emr
好吧,您可能需要使用 HIVE XML SerDe 来读取 XML 文件或编写/使用可以理解 XML 的自定义 UDF。
一些可能有帮助的参考资料:https://community.hortonworks.com/articles/972/hive-and-xml-pasring.html https://github.com/dvasilen/Hive-XML-SerDe/wiki/XML-data-sources https://community.hortonworks.com/questions/47840/how-do-i-do-xml-string-parsing-in-hive.html
【讨论】: