【问题标题】:Stream decoding of Base64 dataBase64数据的流解码
【发布时间】:2013-11-27 14:52:54
【问题描述】:

我有一些大型 base64 编码数据(存储在 hadoop 文件系统中的 snappy 文件中)。 此数据最初是 gzip 压缩的文本数据。 我需要能够读取这些编码数据的块,对其进行解码,然后将其刷新到 GZIPOutputStream。

关于如何做到这一点而不是将整个 base64 数据加载到数组中并调用 Base64.decodeBase64(byte[]) 的任何想法?

如果我读取字符直到 '\r\n' 分隔符并逐行解码,我是对的吗? 例如:

for (int i = 0; i < byteData.length; i++) {
    if (byteData[i] == CARRIAGE_RETURN || byteData[i] == NEWLINE) {
       if (i < byteData.length - 1 && byteData[i + 1] == NEWLINE)
            i += 2;
       else 
            i += 1;

       byteBuffer.put(Base64.decodeBase64(record));

       byteCounter = 0;
       record = new byte[8192];
    } else {
        record[byteCounter++] = byteData[i];
    }
}

遗憾的是,这种方法没有提供任何人类可读的输出。 理想情况下,我想对数据进行流式读取、解码和流式传输。

现在,我正在尝试放入一个输入流,然后复制到一个 gzipout

byteBuffer.get(bufferBytes);

InputStream inputStream = new ByteArrayInputStream(bufferBytes);
inputStream = new GZIPInputStream(inputStream);
IOUtils.copy(inputStream , gzipOutputStream);

它给了我一个 java.io.IOException:损坏的 GZIP 预告片

【问题讨论】:

  • byteBuffer.put(Base64.decodeBase64(record)); 不应该是byteBuffer.put(Base64.encodeBase64(record));
  • “记录”是 Base64 编码的。我正在尝试获取解码后的数据并将其添加到 ByteBuffer。

标签: java hadoop base64 gzipinputstream


【解决方案1】:

感谢 Nikos 为我指明了正确的方向。 具体来说,这就是我所做的:

private static final byte NEWLINE = (byte) '\n';
private static final byte CARRIAGE_RETURN = (byte) '\r';

byte[] lineSeparators = new byte[] {CARRIAGE_RETURN, NEWLINE};      
Base64InputStream b64is = new Base64InputStream(inputStream, false, 76, lineSeparators);

GZIPInputStream zis = new GZIPInputStream(b64is);

Base64 行的长度不是 76 吗?不过,我没有尝试使用 80。

【讨论】:

  • 如果它被固定为 76 长度,那么他们就不会包含构造函数参数。还要考虑一下数据 URI,其中整件事是一行。
【解决方案2】:

让我们一步一步来:

  1. 您需要GZIPInputStream 来读取压缩数据(而不是GZIPOutputStream;输出流用于压缩数据)。有了这个流,您将能够读取未压缩的原始二进制数据。这需要在构造函数中使用InputStream

  2. 您需要一个能够读取 Base64 编码数据的输入流。我建议来自apache-commons-codec 的方便的Base64InputStream。使用构造函数,您可以设置行长、行分隔符并设置doEncode=false 来解码数据。这又需要另一个输入流 - 原始的 Base64 编码数据。

  3. 此流取决于您获取数据的方式;理想情况下,数据应以InputStream 的形式提供 - 问题已解决。如果没有,您可能必须使用ByteArrayInputStream(如果是二进制)、StringBufferInputStream(如果是字符串)等。

大概这个逻辑是:

InputStream fromHadoop = ...;                                  // 3rd paragraph
Base64InputStream b64is =                                      // 2nd paragraph
    new Base64InputStream(fromHadoop, false, 80, "\n".getBytes("UTF-8"));
GZIPInputStream zis = new GZIPInputStream(b64is);              // 1st paragraph

请注意Base64InputStream的参数(行长和行尾字节数组),您可能需要调整它们。

【讨论】:

  • 非常感谢,尼科斯。 Base64InputStream 类有所帮助。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2012-10-05
  • 2010-10-02
  • 1970-01-01
相关资源
最近更新 更多