【发布时间】:2017-02-10 03:12:32
【问题描述】:
伙计们,
我们有一个要求,我们想对 CSV 文件进行小幅转换,然后使用 spark 将其写入其他 HDFS 文件夹。
例如 /input/csv1.txt(至少 4 GB 文件)
ID,Name,Address
100,john,some street
输出应该在文件中 (output/csv1.txt)。基本上解析地址后会添加两个新列(记录顺序应与输入文件相同)
ID,Name,Address,Country,ZipCode
100,Name,Address,India,560001
看来用 spark 不容易做到这一点。
【问题讨论】:
标签: apache-spark apache-spark-sql