【问题标题】:WAV-file analysis C (libsndfile, fftw3)WAV 文件分析 C (libsndfile, fftw3)
【发布时间】:2012-05-24 13:05:45
【问题描述】:

我正在尝试开发一个简单的 C 应用程序,它可以在 WAV 文件中的给定时间戳的特定频率范围内给出 0-100 的值。

示例:我的频率范围为 44.1kHz(典型的 MP3 文件),我想将该范围分成 n 个范围(从 0 开始)。然后我需要得到每个范围的幅度,从 0 到 100。

到目前为止我所管理的:

使用 libsndfile 我现在能够读取 WAV 文件的数据。

infile = sf_open(argv [1], SFM_READ, &sfinfo);

float samples[sfinfo.frames];

sf_read_float(infile, samples, 1);

但是,我对 FFT 的理解相当有限。但我知道为了在我需要的范围内获得振幅是必需的。但我该如何从这里继续前进?我找到了库 FFTW-3,它似乎很适合这个目的。

我在这里找到了一些帮助:https://stackoverflow.com/a/4371627/1141483

并在这里查看了 FFTW 教程:http://www.fftw.org/fftw2_doc/fftw_2.html

但由于我不确定 FFTW 的行为,我不知道从这里开始。

还有一个问题,假设您使用 libsndfile:如果您强制读取为单通道(使用立体声文件),然后读取样本。那么您实际上只会读取整个文件的一半样本吗?其中一半来自通道 1,还是会自动将其过滤掉?

非常感谢您的帮助。

编辑:我的代码可以在这里看到:

double blackman_harris(int n, int N){
double a0, a1, a2, a3, seg1, seg2, seg3, w_n;
a0 = 0.35875;
a1 = 0.48829;
a2 = 0.14128;
a3 = 0.01168;

seg1 = a1 * (double) cos( ((double) 2 * (double) M_PI * (double) n) / ((double) N - (double) 1) );
seg2 = a2 * (double) cos( ((double) 4 * (double) M_PI * (double) n) / ((double) N - (double) 1) );
seg3 = a3 * (double) cos( ((double) 6 * (double) M_PI * (double) n) / ((double) N - (double) 1) );

w_n = a0 - seg1 + seg2 - seg3;
return w_n;
}

int main (int argc, char * argv [])
{   char        *infilename ;
SNDFILE     *infile = NULL ;
FILE        *outfile = NULL ;
SF_INFO     sfinfo ;


infile = sf_open(argv [1], SFM_READ, &sfinfo);

int N = pow(2, 10);

fftw_complex results[N/2 +1];
double samples[N];

sf_read_double(infile, samples, 1);


double normalizer;
int k;
for(k = 0; k < N;k++){
    if(k == 0){

        normalizer = blackman_harris(k, N);

    } else {
        normalizer = blackman_harris(k, N);
    }

}

normalizer = normalizer * (double) N/2;



fftw_plan p = fftw_plan_dft_r2c_1d(N, samples, results, FFTW_ESTIMATE);

fftw_execute(p);


int i;
for(i = 0; i < N/2 +1; i++){
    double value = ((double) sqrtf(creal(results[i])*creal(results[i])+cimag(results[i])*cimag(results[i]))/normalizer);
    printf("%f\n", value);

}



sf_close (infile) ;

return 0 ;
} /* main */

【问题讨论】:

    标签: c fft wav fftw libsndfile


    【解决方案1】:

    这一切都取决于您所追求的频率范围。 FFT 通过采集 2^n 个样本并为您提供 2^(n-1) 个实数和虚数来工作。我不得不承认,我对这些价值观到底代表什么感到很模糊(我有一个朋友承诺会和我一起经历这一切,而不是在他遇到财务问题时我借给他;))围绕一个圆的一个角。实际上,它们为您提供了每个频率区间的正弦和余弦的角度参数的 arccos,可以从中完美地重建原始 2^n 样本。

    无论如何,这具有巨大的优势,您可以通过取实部和虚部的欧几里德距离 (sqrtf( (real * real) + (imag * imag) )) 来计算幅度。这为您提供了一个非标准化的距离值。然后可以使用该值来为每个频带构建幅度。

    所以让我们订购 10 FFT (2^10)。您输入了 1024 个样本。您对这些样本进行 FFT,然后返回 512 个虚值和实值(这些值的特定顺序取决于您使用的 FFT 算法)。因此,这意味着对于 44.1Khz 音频文件,每个 bin 代表 44100/512 Hz 或每个 bin 约 86Hz。

    应该从中脱颖而出的一件事是,如果您使用更多样本(在处理图像等多维信号时来自所谓的时域或空间域),您将获得更好的频率表示(在所谓的频域中) .然而,你为另一个牺牲了一个。这就是事情的发展方式,你将不得不忍受它。

    基本上,您需要调整频率箱和时间/空间分辨率以获得所需的数据。

    首先是一些命名法。我前面提到的 1024 个时域样本称为你的窗口。通常,在执行此类过程时,您需要将窗口滑动一些量以获得您 FFT 的下一个 1024 个样本。显而易见的做法是抽取样本 0->1023,然后是 1024->2047,依此类推。不幸的是,这并没有给出最好的结果。理想情况下,您希望在一定程度上重叠窗口,以便随着时间的推移获得更平滑的频率变化。最常见的是人们将窗口滑动一半的窗口大小。即你的第一个窗口将是 0->1023 第二个 512->1535 等等。

    现在这又带来了另一个问题。虽然此信息提供了完美的逆 FFT 信号重建,但它给您留下了一个问题,即频率在一定程度上泄漏到环绕声箱中。为了解决这个问题,一些数学家(比我聪明得多)提出了window function 的概念。窗函数在频域中提供了更好的频率隔离,但会导致时域中的信息丢失(即,在您使用窗函数之后,不可能完美地重建信号,AFAIK)。

    现在有各种类型的窗口函数,从矩形窗口(实际上对信号没有任何作用)到提供更好频率隔离的各种函数(尽管有些函数也可能会消除您可能感兴趣的周围频率!! )。唉,没有一种尺寸适合所有人,但我是 blackmann-harris 窗口函数的忠实粉丝(对于频谱图)。我认为它给出了最好看的结果!

    但是,正如我之前提到的,FFT 为您提供了一个非归一化的频谱。要对光谱进行归一化(在计算欧几里得距离之后),您需要将所有值除以归一化因子(我会更详细地介绍 here)。

    这种标准化将为您提供一个介于 0 和 1 之间的值。因此您可以轻松地将该值乘以 100 以获得 0 到 100 的比例。

    然而,这并不是它的结束。您从中获得的频谱相当不令人满意。这是因为您正在使用线性比例查看幅度。不幸的是,人耳使用对数刻度听到。这反而会导致频谱图/频谱的外观出现问题。

    要解决这个问题,您需要将这些 0 到 1 的值(我称之为“x”)转换为分贝刻度。标准转换为20.0f * log10f( x )。然后,这将为您提供一个值,其中 1 已转换为 0,0 已转换为 -infinity。您的大小现在处于适当的对数刻度中。然而,它并不总是那么有用。

    此时您需要查看原始样本位深度。在 16 位采样时,您会得到一个介于 32767 和 -32768 之间的值。这意味着您的 dynamic range 是 fabsf( 20.0f * log10f( 1.0f / 65536.0f ) ) 或 ~96.33dB。所以现在我们有了这个值。

    取我们从上面的 dB 计算中得到的值。将这个 -96.33 值添加到它。显然,最大幅度 (0) 现在是 96.33。现在按相同的值进行除法运算,您现在的值范围从 -infinity 到 1.0f。将下端限制为 0,您现在有一个从 0 到 1 的范围,然后将其乘以 100,您就有了最终的 0 到 100 范围。

    这比我最初的意图更像一个怪物帖子,但应该为您提供如何为输入信号生成良好频谱/频谱图的良好基础。

    呼吸

    进一步阅读(对于已经找到它的原始海报以外的人):

    Converting an FFT to a spectogram

    编辑:顺便说一句,我发现 Kiss FFT 更容易使用,我执行前向 fft 的代码如下:

    CFFT::CFFT( unsigned int fftOrder ) :
        BaseFFT( fftOrder )
    {
        mFFTSetupFwd    = kiss_fftr_alloc( 1 << fftOrder, 0, NULL, NULL );
    }
    
    bool CFFT::ForwardFFT( std::complex< float >* pOut, const float* pIn, unsigned int num )
    {
        kiss_fftr( mFFTSetupFwd, pIn, (kiss_fft_cpx*)pOut );
        return true;
    }
    

    【讨论】:

    • 哥兹,你真的是我的英雄。感谢一百万的帮助。我现在正在阅读,明天将尝试实施您所描述的内容:)
    • @ThomasKobberPanum:没有问题 :)
    • 嗨 Goz,到目前为止,我已经发布了我的代码。我还没有实现重叠。我只是想从一些标准化值开始。我看不出我做错了什么?我仍然得到这些巨大的数字,这是有道理的,因为归一化器的值相当低......但它一定是不正确的?
    • @ThomasKobberPanum:现在看看。顺便说一句,尽管您最好开始另一篇帖子询问问题,因为您的问题会获得更多流量(我敢肯定,我不是唯一可以提供帮助的人)。更不用说我只能为你的问题投票一次,这样你就可以得到更高的分数;)
    • 大声笑 .. 必须喜欢随机的反对票...这篇文章有什么问题?
    猜你喜欢
    • 1970-01-01
    • 2014-04-27
    • 1970-01-01
    • 1970-01-01
    • 2011-08-05
    • 1970-01-01
    • 2015-09-09
    • 2013-06-13
    • 1970-01-01
    相关资源
    最近更新 更多