【问题标题】:What are MFCC values?什么是 MFCC 值?
【发布时间】:2017-11-05 10:38:40
【问题描述】:
所以我知道什么是 MFCC(梅尔频率倒谱系数)。但我需要了解每个值是什么......是某种声音频率值还是什么?
假设我们有这种矩阵。所以每一行代表一帧的系数,但这些数字是多少?可能是最高频率还是什么?
【问题讨论】:
标签:
neural-network
speech-recognition
mfcc
【解决方案1】:
倒谱通常是通过计算一帧语音的(对称)对数功率谱的离散余弦变换得出的;在这里,对数功率谱 [曲线] 被视为一个信号 (https://en.wikipedia.org/wiki/Mel-frequency_cepstrum)。因此,倒谱系数是序列/曲线(表示对数功率谱)和不同“频率”的余弦波之间相似性的度量。倒谱系数捕获该序列的值变化的速率。
第一个倒谱系数是对数功率谱与[周期]余弦波的点积,该余弦波的一个周期在频域中的原点(f=0)开始,到f=2*Pi弧度结束(或等效地,采样频率)。举例说明:元音的对数功率谱在低频区域(f=0 附近)具有高能量,而在高频区域(f=Pi 附近)具有低能量。换言之,在元音的情况下,[0,Pi] 范围内的对数功率谱曲线的斜率具有负斜率。由于对数功率谱的这种变化类似于上述余弦波的变化,因此元音语音帧的第一倒谱系数将具有正值。相反,清音擦音(如 /s/)的倒谱[1] 将具有负值,因为其对数功率谱由于低频能量低、高频能量高以及低频能量显着而具有正斜率由于配音。
类似地,如果在 f=Pi/2 处的对数功率谱中有一个主谷,倒谱[2] 将为正。浊音擦音(例如:/z/)的对数功率谱将接近这样的描述,因为由于声音的擦音特性,在高频处存在大量能量。当然,倒谱[0] 是对数功率谱值的平均值;它捕捉信号的音量/响度。