本博主菜鸟一枚,刚入行音视频行业一年,现将个人了解到的知识做一个小结。由于本博主水平有限,难免出现不当之处,恳请各大牛批评指出。闲话不多说:
(以下内容只针对初学者:)
1.什么是数字音频?
在大自然中声音的存在是以模拟信号的方式存在的,比如说:飞机飞行发出的声音;我们唱歌的声音;我们讲话的声音;小鸟的叫声;知了的叫声等;然而在计算机的世界里,只有1,0的存在,所以如果我们想要把 大自然中的声音存储在计算机的世界中,那么就需要转换;即 模拟信号—>数字信号;(对此如有疑问,可以自行百度:模拟信号与数据信号技术!)
我们把 模拟声音 转化成 数字声音 的结果 就是PCM ,一般我们称之为 音频裸数据;
1.1 什么是PCM?
pcm(脉冲编码调制 Pulse Code Modulation, pcm)是把一个时间连续,取值连续的模拟信号变换成时间离散,取值离散的数字信号后在信道中传输。PCM就是对模拟信号先抽样,在对样值幅度量化,编码的过程。
抽样(采样):对模拟信号进行周期性扫描,把时间上连续的信号变成时间上离散的信号,抽样必须遵循 奈奎斯特 抽样定理。该模拟信号经过抽样后还应当包含原信号中所有信息,也就是说能无失真的恢复模拟信号。它的抽样速率 的下限是由抽样定理确定的。抽样速率采用8KHZ。
【
采样,就是每隔一段时间间隔读一次声音的幅度。单位时间内采样的次数称为采样频率。显然采样频率越高,所得到的离散幅值的数据点就越逼近于连续的模拟音频信号曲线,同时采样的数据量也越大。
为了保证数字化的音频能够准确(可逆)地还原成模拟音频进行输出,采样定理要求:采样频率必须大于等于模拟信号频谱中的最高频率的2倍。
常用的音频采样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。
例如:话音信号频率在0.3~3.4kHz范围内,用8kHz的抽样频率(fs),就可获得能取代原来连续话音信号的抽样信号,而一般CD采集采样频率为44.1kHz。
】
量化:把经过抽样得道的瞬时值将其幅度离散,即用一组规定的电平,把瞬时抽样值用最接近的电平值来表示,通常是用二进制表示。 通俗来讲量化,就是把采样得到的声音信号幅度转换成数字值,用于表示信号强度。
【
量化精度:用多少个二进位来表示每一个采样值,也称为量化位数。声音信号的量化位数一般是 4,6,8,12或16 bits 。
由采样频率和量化精度可以知道,相对自然界的信号,音频编码最多只能做到无限接近,在计算机应用中,能够达到最高保真水平的就是PCM编码,通常PCM约定俗成了无损编码。
】
量化误差:略。
编码:就是用一组 二进制码组来表示每一个有固定电平的量化值。然而,实际上量化是在编码过程中同时完成的,故编码过程也称为 摸/数变换,可记作A/D。
【
一个采样率为44.1kHz,量化精度为16bit,双声道的PCM编码输出,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,存储一秒钟需要176.4KB的空间,1分钟则约为10.34M,因此,为了降低传输或存储的费用,就必须对数字音频信号进行编码压缩。
】
2.音频编码有哪些?
一般我们录音后得到的PCM是很大的,如果直接把它存储在硬盘或者TF卡等存储设备中,那它占用的空间就会很大,所以我们一般把它编码;
一般我们常见的音频编码有:
AAC 、WAV 、 MP3 、 G711 、 OGG
3.编码主要参数有?
采样频率、量化位数、 声道数、 码率等
4.如何分析音频数据?
一般分析PCM 数据使用的软件是:Adobe Audition软件(付费)
AAC 分析也可以用 :Adobe Audition软件
或者直接用UE 去打开原始文件,分析文件中的数据!
上图是 Adobe Audition软件;
在PCM编码格式中,数据类型分为两种,一种是 带P ,另一种是 不带P;
带P和不带P的数据类型的区别:
P表示Planar(平面),其数据格式排列方式为 :
LLLLLLRRRRRRLLLLLLRRRRRRLLLLLLRRRRRRL...(每个LLLLLLRRRRRR为一个音频帧)
而不带P的数据格式(即交错排列)排列方式为:
LRLRLRLRLRLRLRLRLRLRLRLRLRLRLRLRLRLRL...(每个LR为一个音频样本)
由于微软的WAV文件就是pcm编码的一种,所以我们可以通过分析WAV 去分析 PCM数据。
4.1 分析WAV 数据
https://www.cnblogs.com/ranson7zop/p/7657874.html
https://blog.csdn.net/u014421422/article/details/81014570
4.2 分析G711数据
https://blog.csdn.net/zz460833359/article/details/82752468
G711编码相对来说比较简单,详见上链接。
4.3 分析AAC数据
注意:(AAC的音频文件格式有ADIF & ADTS,一般都是ADTS)
https://blog.csdn.net/sz76211822/article/details/53670069
https://www.cnblogs.com/zhangxuan/p/8809245.html
上图可以用UE 打开获取;
参考文档:
音频编码知识与技术参数,常用音频协议介绍:https://blog.csdn.net/lijian2017/article/details/81942899
音视频相关的可以参考 雷霄骅 师兄的博客:https://blog.csdn.net/leixiaohua1020/article/details/50534316