【发布时间】:2020-07-21 21:28:50
【问题描述】:
我有一些存储在 HDFS 中的 parquet 文件,我想先将它们转换为 csv 文件,然后使用 ssh 将它们导出到远程文件中。
我不知道通过编写 spark 作业是否可能或简单(我知道我们可以通过使用 spark.read.parquet 将 parquet 转换为 csv 文件,然后使用 spark.write 作为 csv 文件到同一个 DF )。但我真的很想通过使用 impala shell 请求来做到这一点。
所以,我想到了这样的事情:
hdfs dfs -cat my-file.parquet | ssh myserver.com 'cat > /path/to/my-file.csv'
你能帮我解决这个请求吗?请。 谢谢!!
【问题讨论】:
标签: impala