【问题标题】:FFT Inaccuracy for C#C# 的 FFT 不准确性
【发布时间】:2011-06-25 08:47:20
【问题描述】:

我一直在试验 FFT 算法。我使用 NAudio 以及来自互联网的 FFT 算法的工作代码。根据我对表演的观察,得到的音高是不准确的。

发生的情况是,我有一个 MIDI(从 GuitarPro 生成)转换为 WAV 文件(44.1khz,16 位,单声道),其中包含从 E2(最低吉他音符)到大约 E6 的音高进程。较低的音符(E2-B3 附近)的结果通常是非常错误的。但是达到 C4 它在某种程度上是正确的,因为您已经可以看到正确的进程(下一个音符是 C#4,然后是 D4 等)但是,问题在于检测到的音高比实际音高低半音(例如 C4 应该是音符,但显示的是 D#4)。

您认为可能有什么问题?如有必要,我可以发布代码。非常感谢!我还是开始掌握DSP领域。

编辑:这是我在做什么的粗略介绍

byte[] buffer = new byte[8192];
int bytesRead;
do
{
  bytesRead = stream16.Read(buffer, 0, buffer.Length);
} while (bytesRead != 0);

然后:(waveBuffer 只是一个将 byte[] 转换为 float[] 的类,因为该函数只接受 float[])

public int Read(byte[] buffer, int offset, int bytesRead)
{
  int frames = bytesRead / sizeof(float);
  float pitch = DetectPitch(waveBuffer.FloatBuffer, frames);
}

最后:(Smbpitchfft 是具有 FFT 算法的类......我相信它没有任何问题,所以我不在这里发布)

private float DetectPitch(float[] buffer, int inFrames)
{
  Func<int, int, float> window = HammingWindow;
  if (prevBuffer == null)
  {
    prevBuffer = new float[inFrames]; //only contains zeroes
  }  

  // double frames since we are combining present and previous buffers
  int frames = inFrames * 2;
  if (fftBuffer == null)
  {
    fftBuffer = new float[frames * 2]; // times 2 because it is complex input
  }

  for (int n = 0; n < frames; n++)
  {
     if (n < inFrames)
     {
       fftBuffer[n * 2] = prevBuffer[n] * window(n, frames);
       fftBuffer[n * 2 + 1] = 0; // need to clear out as fft modifies buffer
     }
     else
     {
       fftBuffer[n * 2] = buffer[n - inFrames] * window(n, frames);
       fftBuffer[n * 2 + 1] = 0; // need to clear out as fft modifies buffer
     }
   }
   SmbPitchShift.smbFft(fftBuffer, frames, -1);
  }

对于结果的解释:

float binSize = sampleRate / frames;
int minBin = (int)(82.407 / binSize); //lowest E string on the guitar
int maxBin = (int)(1244.508 / binSize); //highest E string on the guitar

float maxIntensity = 0f;
int maxBinIndex = 0;

for (int bin = minBin; bin <= maxBin; bin++)
{
    float real = fftBuffer[bin * 2];
    float imaginary = fftBuffer[bin * 2 + 1];
    float intensity = real * real + imaginary * imaginary;
    if (intensity > maxIntensity)
    {
        maxIntensity = intensity;
        maxBinIndex = bin;
    }
}

return binSize * maxBinIndex;

更新(如果有人仍然感兴趣):

因此,以下答案之一表明 FFT 的频率峰值并不总是等于音高。我明白那个。但如果是这种情况,我想为自己尝试一些东西(假设有时频率峰值是产生的音高)。所以基本上,我得到了 2 个能够显示音频信号频域的软件(DewResearch 的 SpectraPLUS 和 FFTProperties;感谢他们)。

以下是时域中频率峰值的结果:

光谱加

和 FFT 属性:

这是使用 A2(大约 110Hz)的测试笔记完成的。查看图像后,SpectraPLUS 的频率峰值范围为 102-112 Hz,FFT 属性的频率峰值范围为 108 Hz。在我的代码中,我得到 104Hz(我使用 8192 个块和 44.1khz 的采样率......然后将 8192 加倍以使其成为复杂输入,所以最后,与 SpectraPLUS 的 10Hz binsize 相比,我得到大约 5Hz 的 binsize )。

所以现在我有点困惑,因为在软件上它们似乎返回了正确的结果,但在我的代码上,我总是得到 104Hz(请注意,我已经将我使用的 FFT 函数与其他函数进行了比较,例如 Math.Net 和这似乎是正确的)。

您认为问题可能出在我对数据的解释上吗?或者软件在显示频谱之前会做其他事情吗?谢谢!

【问题讨论】:

  • 嗨!我为 maxBinIndex 得到的值是 bin 20(大约 100-104 Hz),结果大约是 G#,这是假定 A 的半音。这与其他 .wav 文件一致,有时是一个完整的步骤下来。
  • @eryksun 谢谢!你的最后一点很有趣。我会试着调查一下。
  • @eryksun 你好!非常感谢!这似乎是问题所在。我的代码现在可以工作并返回正确的频率。似乎我从 Paul R 的回答中错过了这个解决方案,因为那时我对 FFT 还不太了解。但是,感谢您的帮助,我学到了很多东西。再次感谢!
  • 但是,prevBuffer 元素从未设置,因此值始终为 0。这是正确的行为吗?

标签: c# signal-processing fft pitch pitch-tracking


【解决方案1】:

听起来您的 FFT 输出可能存在解释问题。几个随机点:

  • FFT 具有有限的分辨率 - 每个输出 bin 的分辨率为 Fs / N,其中 Fs 是采样率,N 是 FFT 的大小

  • 对于音阶较低的音符,连续音符之间的频率差异相对较小,因此您需要足够大的 N 来区分相隔半音的音符(见下面的注 1)

  • 第一个 bin(索引 0)包含以 0 Hz 为中心的能量,但包含来自+/- Fs / 2N的能量

  • bin i 包含以i * Fs / N 为中心的能量,但包含来自该中心频率任一侧的+/- Fs / 2N 的能量

  • 你会从相邻的 bin 中得到 spectral leakage - 这有多糟糕取决于你使用什么 window function - 没有窗口(== 矩形窗口)并且光谱泄漏将非常糟糕(非常宽的峰值) -对于频率估计,您要选择一个窗口函数,它可以为您提供尖锐的峰值

  • 音高与频率不同 - 音高是一种感知,频率是一种物理量 - 乐器的感知音高可能与基频略有不同,具体取决于乐器的类型(有些乐器甚至不会在它们的基频上产生显着的能量,但我们仍然会感觉到它们的音高,就好像基频存在一样)

从可用的有限信息中,我最好的猜测是,也许您在将 bin 索引转换为频率的过程中某处“偏离了一个”,或者您的 FFT 太小而无法为您提供足够的低音分辨率,并且您可能需要增加 N。

您还可以通过多种技术改进您的音高估计,例如倒谱分析,或者通过查看 FFT 输出的相位分量并将其与连续 FFT 进行比较(这允许在一个 bin 中更准确地估计频率给定 FFT 大小)。


注意事项

(1) 只是在这上面加上一些数字,E2 是 82.4 Hz,F2 是 87.3 Hz,所以你需要一个略高于 5 Hz 的分辨率来区分吉他上最低的两个音符(并且比这更精细)如果你真的想做,比如说,准确的调整)。在 44.1 kHz 采样时,您可能需要至少 N = 8192 的 FFT 才能为您提供足够的分辨率(44100 / 8192 = 5.4 Hz),可能 N = 16384 会更好。

【讨论】:

  • 嗨,保罗!非常感谢您的回答!我目前正在使用 Hamming Window 作为窗口函数并使用 N = 4096。但原因是我利用交错来使 FFT 算法的输入缓冲区更大。通常,我将零与输入缓冲区交错。我要尝试一些事情来尝试检查它是否提高了准确性。谢谢!
  • @user488792:好的 - 听起来你已经有了一个好的开始 - 汉明是一个合理的窗口选择,但请注意将零填充到您的数据中以获得更多明显 i> 分辨率并没有真正为您买任何东西 - 它只是对结果 FFT 输出进行插值,使其看起来更平滑,但没有额外的信息(没有免费午餐之类的东西!)。
  • @eryksun:好点——我把“交错”读作“填充”。 @user488792:需要将零添加到缓冲区以获得插值频谱,正如@eryksun 正确所说的那样 - 这是你在做什么,还是你真的在 between 个样本之间交错零?
  • 我会概述我在做什么。我还是一个初学者,所以我只是从一个网站上得到它,并不确定它的作用,因此造成了混乱,但它似乎有效,所以我把它留在了那里。我将编辑我的帖子以添加其他信息,因为我认为评论可能太长了。
  • 嗨!感谢所有的帮助。经过多次跟踪和调试并在运行时查看值后,我得出的结论是,问题可能出在我的音频信号上(正如一些人提到的,频率音高估计没有真正定义。我会继续尝试并进行实验,但与此同时,我认为我学到了很多东西,并且对 FFT 算法有了更好的理解。非常感谢!
【解决方案2】:

我认为这可能会对您有所帮助。我绘制了吉他的 6 根空弦图。代码在 Python 中使用 pylab,我推荐用于实验:

# analyze distorted guitar notes from
# http://www.freesound.org/packsViewSingle.php?id=643
#
# 329.6 E - open 1st string
# 246.9 B - open 2nd string
# 196.0 G - open 3rd string
# 146.8 D - open 4th string
# 110.0 A - open 5th string
#  82.4 E - open 6th string

from pylab import *
import wave

fs = 44100.0 
N = 8192 * 10
t = r_[:N] / fs
f = r_[:N/2+1] * fs / N 
gtr_fun = [329.6, 246.9, 196.0, 146.8, 110.0, 82.4]

gtr_wav = [wave.open('dist_gtr_{0}.wav'.format(n),'r') for n in r_[1:7]]
gtr = [fromstring(g.readframes(N), dtype='int16') for g in gtr_wav]
gtr_t = [g / float64(max(abs(g))) for g in gtr]
gtr_f = [2 * abs(rfft(g)) / N for g in gtr_t]

def make_plots():
    for n in r_[:len(gtr_t)]:
        fig = figure()
        fig.subplots_adjust(wspace=0.5, hspace=0.5)
        subplot2grid((2,2), (0,0))
        plot(t, gtr_t[n]); axis('tight')
        title('String ' + str(n+1) + ' Waveform')
        subplot2grid((2,2), (0,1))
        plot(f, gtr_f[n]); axis('tight')
        title('String ' + str(n+1) + ' DFT')
        subplot2grid((2,2), (1,0), colspan=2)
        M = int(gtr_fun[n] * 16.5 / fs * N)
        plot(f[:M], gtr_f[n][:M]); axis('tight')
        title('String ' + str(n+1) + ' DFT (16 Harmonics)')

if __name__ == '__main__':
    make_plots()
    show()

弦 1,基频 = 329.6 Hz:

弦 2,基频 = 246.9 Hz:

弦 3,基频 = 196.0 Hz:

弦 4,基频 = 146.8 Hz:

弦 5,基频 = 110.0 Hz:

弦 6,基频 = 82.4 Hz:

基频并不总是主要的谐波。它决定了周期信号的谐波之间的间距。

【讨论】:

  • 嗨!非常感谢您,我感谢您的努力。这对于学习和进一步分析将非常有用。谢谢!
  • 您好!我对我的表现做了一些更新。你能看一下吗?非常感谢!
【解决方案3】:

我有一个 similar question,而我的答案是使用 Goertzel 而不是 FFT。如果您知道您正在寻找什么音调 ​​(MIDI),Goertzel 能够检测到一个正弦波(一个周期)内的音调。它通过生成声音的正弦波并“将其置于原始数据之上”来查看它是否存在。 FFT 对大量数据进行采样以提供近似频谱。

【讨论】:

  • 嗨!感谢您的建议!但是,我正在使用 WAV 文件,所以我认为在这种情况下 FFT 会更好。此外,我试图让它工作并更好地学习它,因为在未来,我将使用它进行和弦检测(当然还有其他算法)。谢谢!
【解决方案4】:

音乐音高与频率峰值不同。音高是一种心理感知现象,可能更多地取决于泛音等。在实际信号频谱中,人类所称的音高频率可能会丢失或非常小。

频谱中的频率峰值可以不同于任何 FFT bin 中心。 FFT bin 中心频率的频率和间距仅取决于 FFT 长度和采样率,而不是数据中的频谱。

因此,您至少有 2 个问题需要解决。有大量关于频率估计的学术论文以及音高估计的单独主题。从那里开始。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2015-02-16
    • 2017-09-28
    • 2011-12-10
    • 2015-03-23
    • 2021-04-03
    • 2017-02-17
    • 2012-01-04
    相关资源
    最近更新 更多