使用 ffmpeg 解码 AAC 音频答案

【问题标题】：Decoding AAC audio with ffmpeg使用 ffmpeg 解码 AAC 音频
【发布时间】：2021-04-20 23:58:37
【问题描述】：

我正在尝试解码 ADTS 容器中的 AAC 音频流，该容器是从外部硬件 H264 编码器流式传输的。

我解析了 ADTS，它告诉我我有一个 2 通道 44100 AAC 主配置文件框架。我为 ffmpeg 解码器设置了额外的数据字节，并按如下方式解码了帧是否成功？：

（伪 c++ 代码）

设置解码器：

avcodec_find_decoder(codec_id);
avcodec_alloc_context3(context->codec);
avcodec_open2(context->av_codec_context, context->codec, nullptr);
av_init_packet(&context->av_raw_packet);

设置额外的数据字节：

// AOT_MAIN, 44.1kHz, Stereo
// 00001010 00010000
// extradata = 0x0A, 0X10
memcpy(context->av_codec_context->extradata, extradata, extradataLength);
avcodec_open2(context->av_codec_context, context->codec, nullptr);

然后解码帧：

// decode frame
const int len = avcodec_decode_audio4(context->av_codec_context, context->frame, &got_frame, &context->av_raw_packet);
*sampleRate = context->av_codec_context->sample_rate;
*sampleFormat = context->av_codec_context->sample_format;
*bitsPerSample = av_get_bytes_per_sample(context->av_codec_context->sample_fmt) * 8;
*channels = context->av_codec_context->channels;
*channelLayout = context->av_codec_context->channelLayout;
// get frame
*outDataSize = av_samples_get_buffer_size(nullptr, context->av_codec_context->channels, context->frame->nb_samples, context->av_codec_context->sample_fmt, 1);

解码帧：

// array of 8192 bytes, context info is as expected:
context->av_codec_context->channels = 2
context->av_codec_context->channelLayout = 3 (AV_CH_LAYOUT_STEREO)
context->frame->sample_fmt = 8 (AV_SAMPLE_FMT_FLTP) // float, planar
context->frame->sample_rate = 44100

现在据我了解，32 位原始格式的每一帧将是每个样本 4 个字节，并且每个通道将被交错（因此每个第 4 个字节是交替通道）。这样一来，每个通道（8192 / 32 位 / 2 个通道）就有 1024 个样本。

我尝试将这些数据的多个帧导出到一个文件中，并在 Audacity 中作为原始文件（32 位浮点数、2 通道 44100Hz、小端序）导入以进行完整性检查。我得到的不是音乐，而是噪音，检测到的音频长度比我预期的要长得多（5 秒转储到文件中，但 Audacity 说 22.5 秒）。我尝试了各种导入格式设置。我在这里可能做错了什么？

我对音频工作有点陌生，所以我可能会误解一些东西。

编辑：我尝试将音频平移到正确的通道，并将其反映在数据中。它也看起来像一个重复模式，恰好相隔 1024 个样本，这向我表明了一个编程错误，缓冲区在第一个样本之后没有被覆盖。

【问题讨论】：

我几乎想知道我的帧的 Adts 负载是否不正确，即使 ffmpeg 没有抱怨解码。我相当有信心我对原始数据格式的了解足以知道它应该可以工作
尝试向左或向右平移输入，“噪音”出现在正确的通道中，而另一个通道为空。所以很明显是一个信号在驱动它，但字节模式似乎在波形分析中重复自身——几乎就像第一个样本只是一遍又一遍地重复产生嘈杂的音调。
您能解释一下如何在 ffmpeg 中获取和设置额外数据吗？ extradata 字段只有 2 个字节吗？

标签： c++ audio ffmpeg pcm aac

【解决方案1】：

这只不过是一个很难找到的错误。放大 Audacity 中的音频样本显示了 1024 个样本宽的重复模式。

实际上没有正确更新缓冲区，我一遍又一遍地处理相同的音频帧：

for(var offset = 0; offset < packet.Length; offset++) {
  var frame = ReadAdtsFrame();
  // offset += frame.Length; 
  // ^ essentially this was missing, so the frame buffer was always the first frame
}

我将把它留在这里是为了向世界展示我的耻辱，并提醒您，最终导致您的错误通常是您自己的错误。

【讨论】：

如果您可以在答案中显示可能对将来遇到相同问题的其他用户有用的固定代码。