【发布时间】:2018-08-23 03:19:52
【问题描述】:
有一些解决方案可用于读取 EDCDIC 文件,例如 - https://github.com/rbheemana/Cobol-to-Hive,但当 EDCDIC 文件包含偏移长度不等的行时,此方法会失败。
我编写了 MapReduce 作业来读取 EBCDIC 文件并通过基于偏移值读取每一行来转换为 CSV/Parquet,因此所有行的长度都是固定的,以下是示例代码
Configuration conf = new Configuration();
conf.setInt(FixedLengthInputFormat.FIXED_RECORD_LENGTH, 100);
Job job = Job.getInstance(conf);
job.setInputFormatClass(FixedLengthInputFormat.class);
当输入的 EBCDIC 文件不能被偏移(记录)长度整除时,这也会失败。
有没有什么方法可以读取带有页眉和页脚的 EBCDIC 文件并将其转换为 ASCII 文件?
【问题讨论】:
标签: java hadoop mapreduce binary ebcdic