【发布时间】:2013-11-27 14:52:54
【问题描述】:
我有一些大型 base64 编码数据(存储在 hadoop 文件系统中的 snappy 文件中)。 此数据最初是 gzip 压缩的文本数据。 我需要能够读取这些编码数据的块,对其进行解码,然后将其刷新到 GZIPOutputStream。
关于如何做到这一点而不是将整个 base64 数据加载到数组中并调用 Base64.decodeBase64(byte[]) 的任何想法?
如果我读取字符直到 '\r\n' 分隔符并逐行解码,我是对的吗? 例如:
for (int i = 0; i < byteData.length; i++) {
if (byteData[i] == CARRIAGE_RETURN || byteData[i] == NEWLINE) {
if (i < byteData.length - 1 && byteData[i + 1] == NEWLINE)
i += 2;
else
i += 1;
byteBuffer.put(Base64.decodeBase64(record));
byteCounter = 0;
record = new byte[8192];
} else {
record[byteCounter++] = byteData[i];
}
}
遗憾的是,这种方法没有提供任何人类可读的输出。 理想情况下,我想对数据进行流式读取、解码和流式传输。
现在,我正在尝试放入一个输入流,然后复制到一个 gzipout
byteBuffer.get(bufferBytes);
InputStream inputStream = new ByteArrayInputStream(bufferBytes);
inputStream = new GZIPInputStream(inputStream);
IOUtils.copy(inputStream , gzipOutputStream);
它给了我一个 java.io.IOException:损坏的 GZIP 预告片
【问题讨论】:
-
byteBuffer.put(Base64.decodeBase64(record));不应该是byteBuffer.put(Base64.encodeBase64(record)); -
“记录”是 Base64 编码的。我正在尝试获取解码后的数据并将其添加到 ByteBuffer。
标签: java hadoop base64 gzipinputstream