【问题标题】:How to join the Pig output files?如何加入 Pig 输出文件?
【发布时间】:2026-01-14 15:00:02
【问题描述】:

猪脚本输出一些带有 .pig_header 和 .pig_schema 的部分文件(part-m-00000、part-m-00001 等),我正在尝试将它们作为一个输出 csv 加入。 我尝试使用 hadoop 合并

hadoop fs -getmerge ./output output.csv

但文件也与 .pig_schema 文件合并,因此它变成了类似

header1,header2,header3
{"fields":[{"name": "header1", "type":...}]}
value1,value2,value3

如何在不包含 .pig_schema 的情况下正确加入它们?

谢谢!

【问题讨论】:

    标签: java hadoop apache-pig


    【解决方案1】:

    使用文件团:hadoop fs -getmerge ./output/part* output.csv

    【讨论】:

    • 谢谢!如何也包含标题 (.pig_header)?
    • 没试过,不过你可以把它作为参数添加:hadoop fs -getmerge ./output/.pig_header ./output/part* output.csv