LXP-Never

论文地址:ICASSP 2021声学回声消除挑战:数据集和测试框架

回声消除挑战赛数据集地址:https://github.com/microsoft/AEC-Challenge

噪声抑制挑战赛数据集地址:https://github.com/microsoft/DNS-Challenge

主页:https://aec-challenge.azurewebsites.net/


摘要

  ICASSP 2021年声学回声消除挑战赛旨在促进声学回声消除(AEC)领域的研究,该领域是语音增强的重要组成部分,也是音频通信和会议系统中的首要问题。许多最近的AEC研究报告了在训练和测试样本(来自相同基础分布的合成数据集)上的良好性能。然而,AEC的性能经常在真实录音上显著下降。此外,在现实环境中存在背景噪声和混响的情况下,大多数传统的客观指标,如回声回波损耗增强(ERLE)和语音质量感知评估(PESQ),与主观语音质量测试没有很好的相关性。在这个挑战中,我们开源了两个大数据集来训练在单对话和双对话场景下的AEC模型。这些数据集包括来自

  • 2500多个真实的音频设备
  • 真实环境中的人类说话人的录音
  • 一个合成数据集

我们基于ITU-T P.808开源了一个在线主观测试框架,以便研究人员快速测试他们的结果。这个挑战的获胜者将根据所有不同的单向谈话和双向谈话的平均P.808平均意见分数(MOS)来选择。

关键词:声学回声消除、深度学习、单语、双语、主观测试

1 引言

  随着远程工作的日益普及和需求,诸如Microsoft Teams、Skype、WebEx、Zoom等远程会议系统的使用显著增加。为了让用户体验愉快和富有成效,必须有高质量的通话。在语音和视频通话中,回声引起的通话质量下降是语音和视频通话质量较差的主要原因之一。虽然基于数字信号处理(DSP)的声学回声消除(AEC)模型已被用于在通话过程中消除这些回声,但对于物理声学设计较差的设备或超出其设计目标和实验室的测试环境的设备,其性能可能会降低。在全双工通信模式下,这个问题变得更具挑战性,因为在没有显著失真或衰减的情况下,双重通话场景的回声很难抑制[1]。

  随着深度学习技术的出现,一些用于AEC的监督学习算法与经典算法相比表现出了更好的性能[2,3,4]一些研究也表明,将经典和深度学习方法相结合,如使用自适应滤波器和递归神经网络(RNNs)[4,5]具有良好的性能,但仅适用于合成数据集。虽然这些方法对AEC模型的性能提供了一个很好的启发式,但还没有证据表明它们在真实数据集上(不同的噪音和混响环境)的性能。这使得该行业的研究人员很难选择一个能够在具有代表性的真实数据集上表现良好的模型。

  大多数带有评估的AEC论文使用的客观测量有:回声回波损耗增强(ERLE) [6]和语音质量感知评估(PESQ [7]。ERLE被定义为:

$$E R L E=10 \log _{10} \frac{\mathbb{E}\left[y^{2}(n)\right]}{\mathbb{E}\left[\hat{y}^{2}(n)\right]}$$

  其中$y(n)$是麦克风信号,$\hat{y}(n)$是增强语音。ERLE只有在没有背景噪音的安静房间里测量时才合适,并且只适用于单向谈话场景(不是两向谈话)。在存在背景噪声的情况下,PESQ也被证明与主观语音质量没有很高的相关性[8]。使用本挑战中提供的数据集,我们表明ERLE和PESQ与主观测试的相关性较低(表1)。为了在真实环境中使用带有录音的数据集,我们不能使用ERLE和PESQ。需要一个更可靠、更稳健的评估框架,让研究界的每个人都能使用。

  这个AEC挑战旨在通过开放一个大型训练数据集、测试集和主观评估框架来促进AEC领域的研究工作。我们为训练AEC模型提供了两个新的开源数据集。

  • 第一个是使用大规模众包工作捕获的真实数据集。该数据集由从2500多种不同音频设备和环境中收集的真实录音组成。
  • 第二个是由[9]衍生的附加房间脉冲响应和背景噪声的合成数据集

最初的测试集将在开发过程中发布给研究人员使用,在接近尾声时将进行盲测,以决定最终的比赛获胜者。我们相信,这些数据集不仅是AECs的第一个开源数据集,而且足够大,便于深度学习,具有足够的代表性,可以在运输电信产品的实际应用中使用。

  在深度噪声抑制挑战[9]中,我们证明了众包主观质量评价对语音增强挑战是有效的。因此,我们将再次使用ITU-T P.808[10]众包主观质量评价对提交的AEC方法进行比较。为了在评估时提供参考,我们引入了基于DNN的AEC方法(第4节)。在线主观评估框架在第5节讨论。挑战的规则和其他将在第6节中描述。

2 训练数据集

  挑战将包括两个新的开源数据集,一个是真实的,一个是合成的。数据集可在https://github.com/microsoft/AEC-Challenge获得。

2.1 真实数据集

  第一个数据集是通过大规模的众包工作获得的。此数据集由以下场景中的超过2500个不同的真实环境、音频设备和人类说话人组成:

  1. 远端单讲,无回声路径改变
    • GUID_farend_singletalk_lpb.wav (远端单讲的loopback信号)
    • GUID_farend_singletalk_mic.wav (远端单讲被麦克风采集到的信号)
  2. 远端单讲,回音路径改变
    • GUID_farend_singletalk_with_movement_lpb.wav
    • GUID_farend_singletalk_with_movement_mic.wav
  3. 近端单讲,无回声路径改变
    • GUID_nearend_singletalk_mic.wav (近端单讲被麦克风采集到的信号)
  4. 双端通话,无回声路径改变
    • GUID_doubletalk_lpb.wav (设备自身在播放的远端语音(loopback))
    • GUID_doubletalk_mic.wav (麦克风采集到了 扬声器播放出来的loopback信号 和 近端说话人的语音信号)
  5. 双端通话,回音路径改变
    • GUID_doubletalk_with_movement_lpb.wav
    • GUID_doubletalk_with_movement_mic.wav
  6. 用于RT60估计的扫描信号(Sweep signal)
    • GUID_sweep_lpb.wav
    • GUID_sweep_mic.wav

文件夹 real 包括远端信号播放一次的录音。文件夹 real_doubled 包括远端信号播放两次的录音(在双向通话场景中中间有暂停)。

real文件是在 Windows PC 上录制的,如下所示。 Loopback 在文件名中缩写为 lpb。某些 PC 可能在发送和/或接收路径中具有音频 DSP 处理功能,即使我们使用原始模式来播放和捕获音频。

深度神经网络模型训练:输入 (远端语音+麦克风语音),输出(近端语音)

对于远端单讲情况:只有远端扬声器信号向用户播放而用户保持沉默(无近端信号)

  • 输入:(远端语音(远端语音) + 远端回声(麦克风语音))  (GUID_farend_singletalk_lpb.wav + GUID_farend_singletalk_mic.wav)
  • 输出:静音(近端语音)

对于近端单讲情况:没有远端信号,并且提示用户讲话,捕捉近端信号

  • 输入:(静音(远端语音) + 近端语音(麦克风语音))  (静音 + GUID_nearend_singletalk_mic.wav)
  • 输出:静音(近端语音)  (GUID_nearend_singletalk_mic.wav)

对于双讲情况:远端和近端信号均处于活动状态,在该远端扬声器中播放扬声器信号,并且用户同时通话

  • 输入:(远端语音(远端语音) + 麦克风语音(麦克风语音))   (GUID_doubletalk_lpb.wav + GUID_doubletalk_mic.wav)
  • 输出:近端语音(近端语音)  (没有提供!!!)

回声路径改变是通过指示用户在设备周围移动或让自己移动设备来实现的。

  每种情况都包括扬声器(loudspeaker),麦克风(loudspeaker)和环回(loopback)信号。 图1给出了近端单讲语音质量。使用Karjalainen等人[11]的方法估算了数据集的RT60分布,如图2所示。RT60估计值可用于对数据集进行采样以进行训练。

图1  以95%的置信区间对近端单个谈话片段质量(P.808)进行了排序

图2  混响时间分布(T60)

  我们使用亚马逊机械土耳其公司作为众包(crowdsourcing)平台,并编写了一个定制的HIT应用程序,其中包括一个自定义工具,评估人员下载并执行该工具以记录上述六个场景。 数据集仅包含Microsoft Windows设备。

  对于纯净的语音远端信号,我们使用来自爱丁堡数据集的语音片段[12]。 该语料库由简短的单个说话者语音片段(1到3秒)组成。 我们使用了基于长期短期记忆(LSTM)的性别检测器来选择相等数量的男性和女性说话者片段。 此外,我们将这些短片段中的3到5个组合在一起,以创建长度在9到15秒之间的片段。 每个剪辑均由一位性别发言人组成。 我们创建了一个由500个男性和500个女性剪辑组成的性别平衡的远端信号源。 记录以设备支持的最大采样率和32位浮点格式保存; 在发布的数据集中,我们使用自动增益控制将采样降低到16KHz和16位,以最大程度地减少片段。

  对于有噪声的语音远端信号,我们使用来自DNS Challenge[9]的数据以及该数据集中的近端单段通话场景的片段。

  对于近端语音,用户会被提示阅读TIMIT[13]句子列表中的句子。当用户阅读时,大约10秒的音频被记录下来。

2.2 合成数据集

  第二个数据集提供了10,000个合成示例,分别表示单端通话,双端通话,近端噪声,远端噪声和各种非线性失真情况。 每个示例都包括远端语音,回声信号,近端语音和近端麦克风信号片段。 我们从LibriVox project1的[9]中获得的纯净语音和带噪语音数据集中使用12,000个案例(100小时的音频)作为源剪辑来采样远端和近端信号。 LibriVox项目是志愿者阅读的公共领域有声读物的集合[9]。使用在线主观测试框架ITU-T P.808从LibriVox项目中选择了高质量的录音(4.3 MOS 5)。 通过将干净的语音与从Audioset [14],Freesound2和DEMAND [15]数据库中采样的噪声片段混合在一起,以不同的信噪比水平创建嘈杂的语音数据集。

  为了模拟远端信号,我们从1,627个说话人池中选择一个随机说话人,从说话人中随机选择一个片段,并从片段中采样10秒的音频。 对于近端信号,我们随机选择另一个说话人并获取3-7秒的音频,然后将其零填充到10秒。 为了产生回声,我们从一个大型内部数据库中随机选择一个房间脉冲响应与远端信号进行卷积。在80%的情况下,通过非线性函数处理远端信号以模仿扬声器失真。 该信号与近端信号以从-10 dB到10 dB均匀采样的信噪比混合。 在50%的情况下,从嘈杂的数据集中获取远端和近端信号。 前500个片段可用于验证,因为它们有一个单独的发言者和房间脉冲响应列表。可以在存储库中找到详细的元数据信息。

3 测试集

  将包括两个测试集,一个在挑战开始时,一个接近结束的盲测试集。 两者都包含大约800个录音,并分为以下几种情况:

  1. 近端和远端的纯净语音(MOS> 4)
  2. 近端和远端的嘈杂语音

4 基线AEC方法

  我们采用文献[16]中的噪声抑制模型来实现回声消除的任务。 其中,具有门控循环单元的循环神经网络将麦克风信号和远端信号的级联对数功率频谱特征作为输入,并输出频谱抑制掩码(spectral suppression mask)。 STFT是根据帧长20 ms,帧移为10ms,320点离散傅里叶变换计算的。 我们使用两个GRU层的堆栈,然后是具有S型激活功能的全连接层。 将估计的掩码逐点乘以麦克风信号的幅度谱图,以抑制远端信号。 最后,为了重新合成增强的信号,在麦克风信号和估计的幅度谱图的相位上使用了短时傅立叶逆变换。 我们在纯净频谱图和增强幅度频谱图之间使用均方误差损失。 学习率为0.0003的Adam优化器用于训练模型。

5 在线主观评估框架 ITU-T P.808

  AEC评估的主要标准是用于客观评估(例如ERLE)的G.168 [6]和用于主观评估的P.831 [17]。如前所述,ERLE和PESQ并不是评估实际数据AEC性能的可行指标。 P.831第7节中给出的主观测试是可行的,尽管它假设测试环境安静。例如,在P.831中,为了测量远端的单端通话回声性能,使用图3中的设置进行录音,并要求评估者对Sout处的回声量进行评估。但是,任何背景噪声都会使评估者混淆什么是回声泄露,什么不是。我们的解决方案是实现一个三方通话的主观评分,评分者是侦听者(见图4)。为了构造一个听众可以听到的延迟回声信号,将远端信号(说话人信号)与AEC输出的600ms延迟输出信号相结合,以模拟较大的网络延迟。这使评估者可以听到远端语音和延迟的回声泄漏(如果有),从而有助于评估者更好地区分回声泄漏和噪声。然后,我们使用P.808框架[10]通过以下来自P.831 [17]的评级调查获得回声MOS分数:您如何在此对话中判断声回声的衰减

5、听不清

4、可以察觉但不烦人

3、有点烦

2、烦人

1、非常烦人

  挑战中使用的音频管道如图5所示。在第一阶段(AGC1),使用传统的自动增益控制目标语音水平在- 24dbfs。 AGC1的输出保存在测试集中。 下一阶段是AEC,参与者将处理该AEC并将其上传到challenge CMT站点。下一步是传统的噪声抑制器(DMOS <0.1改进),以减少静态噪声。 最后,运行第二个AGC以确保语音水平仍为-24 dBFS。

  对于双端通话场景,我们使用标准的P.808 ACR等级来评估AEC麦克风输出的MOS得分,这是Sout上P.831估计的措施之一。

  主观测试框架可在https://github.com/ microsoft/P.808获得。

图3所示。AEC测试步骤。S是发送,R是接收

图4.用于测量单个通话回声的方法。 当说话人A讲话时,B处的设备漏出回声,而C正在收听(并进行评级)

6 AEC挑战规则和时间表

6.1 规则

   挑战在于如何使用真实(而非模拟)测试集对实时算法的性能进行基准测试。 参与者将在测试仪上评估其AEC,并将结果(音频片段)提交以进行评估。 用于提交的每个AEC的要求是

  • 在Intel Core i5四核机器上,AEC必须用少于跨步时间$T_s$(以毫秒为单位)来处理大小为T(以毫秒为单位)的帧,处理器的频率为2.4 GHz或同等的处理器。 例如,对于帧之间50%的重叠,$T_s=\frac{T}{2}$。 允许的总算法等待时间包括帧大小T,跨步时间Ts和任何向前看都必须小于等于40ms。 例如:如果使用20ms的帧长和10ms的步长导致30ms的算法延迟,则可以满足延迟要求。 如果您使用的帧大小为32ms,跨度为16ms,导致算法延迟为48ms,则您的方法无法满足延迟要求,因为总算法延迟超过40ms。 如果您的帧大小加上步长$T_1 = T + T_s$小于40毫秒,那么您最多可以使用(40 T1)毫秒的未来信息。
  • AEC可以是深度模型,也可以是传统的信号处理算法,也可以是两者的混合。 除了上面描述的运行时间和算法延迟外,对AEC没有任何限制。
  • 提交内容必须遵循http://aec-challenge.azurewebsites.net上的说明。
  • 将根据在第5节中所述的使用ITU-T P.808框架在盲测试集上评估的主观回声MOS来选出获胜者。
  • 盲测集将在2020年10月2日提供给参与者。参与者必须将通过他们开发的模型获得的结果(音频剪辑)发送给组织者。 我们将使用提交的剪辑进行ITU-T P.808主观评估,并根据结果选出获奖者。 禁止参与者使用盲测集重新训练或调整其模型。 他们不应使用未提交给ICASSP 2021的其他AEC方法来提交结果。不遵守这些规则将导致取消参赛资格。
  • 参与者应根据参数数量和推断特定CPU(最好是时钟频率为2.4 GHz的Intel Core i5四核计算机)上的帧所需的时间,报告其模型的计算复杂性。 在提交的建议相差不到0.1 MOS的建议中,较低复杂度的模型将获得较高的排名。
  • 每个参赛团队都必须提交ICASSP论文,以总结研究成果并提供所有细节以确保可重复性。 作者可以选择在论文中报告其他客观/主观指标。
  • 提交的论文将接受ICASSP 2021的标准同行评审过程。论文需要被会议接受才能使参加者有资格挑战。

6.2 时间轴

  • 2020年9月8日:数据集发布。
  • 2020年10月2日:向参与者发布盲测集。
  • 2020年10月9日:在盲测集上提交客观和P.808主观评估结果的截止日期。
  • 2020年10月16日:主办方将通知参赛者比赛结果。
  • 2020年10月19日:ICASSP 2021年常规论文提交截止日期。
  • 2021年1月22日:书面接收/拒绝通知
  • 2021年1月25日:获奖者通知及获奖指示,包括领奖截止日期。

6.3 支持

  参赛者可向aec challenge@microsoft.com发送与挑战有关的任何问题或需要就挑战的任何方面进行澄清的电子邮件。

7 总结

  这是第一个AEC挑战,我们希望它既有趣又有教育意义,对于参与者和论文的读者以及它帮助产生的想法。

8 参考文献

[1] “IEEE 1329 standard method for measuring transmission performance of handsfree telephone sets,” 1999.
[2] A. Fazel, M. El-Khamy, and J. Lee, “Cad-aec: Context-aware deep acoustic echo cancellation,” in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6919–6923.
[3] M. M. Halimeh and W. Kellermann, “Efficient multichannel nonlinear acoustic echo cancellation based on a cooperative strategy,” in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 461–465.
[4] Lu Ma, Hua Huang, Pei Zhao, and Tengrong Su, “Acoustic echo cancellation by combining adaptive digital filter and recurrent neural network,” arXiv preprint arXiv:2005.09237, 2020.
[5] Hao Zhang, Ke Tan, and DeLiang Wang, “Deep learning for joint acoustic echo and noise cancellation with nonlinear distortions.,” in INTERSPEECH, 2019, pp. 4255–4259.
[6] “ITU-T recommendation G.168: Digital network echo cancellers,” Feb 2012.
[7] “ITU-T recommendation P.862: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs,” Feb 2001.
[8] A. R. Avila, H. Gamper, C. Reddy, R. Cutler, I. Tashev, and J. Gehrke, “Non-intrusive speech quality assessment using neural networks,” in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 631–635.
[9] Chandan KA Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, et al., “The interspeech 2020 deep noise suppression challenge: Datasets, subjective testing framework, and challenge results,” arXiv preprint arXiv:2005.13981, 2020.
[10] Babak Naderi and Ross Cutler, “An open source implementation of itu-t recommendation p. 808 with validation,” arXiv preprint arXiv:2005.08138, 2020.
[11] Matti Karjalainen, Poju Antsalo, Aki M¨akivirta, Timo Peltonen, and Vesa V¨alim¨aki, “Estimation of modal decay parameters from noisy response measurements,” J. Audio Eng. Soc, vol. 50, no. 11, pp. 867, 2002.
[12] Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, and Junichi Yamagishi, “Speech enhancement for a noise-robust textto- speech synthesis system using deep recurrent neural networks.,” in Interspeech, 2016, pp. 352–356.
[13] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S.
Pallett, and N. L. Dahlgren, “DARPA TIMIT acoustic phonetic continuous speech corpus CDROM,” 1993.
[14] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal, and Marvin Ritter, “Audio set: An ontology and human-labeled dataset for audio events,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 776–780.
[15] Joachim Thiemann, Nobutaka Ito, and Emmanuel Vincent, “The diverse environments multi-channel acoustic noise database: A database of multichannel environmental noise recordings,” The Journal of the Acoustical Society of America, vol. 133, no. 5, pp. 3591–3591, 2013.
[16] Yangyang Xia, Sebastian Braun, Chandan KA Reddy, Harishchandra Dubey, Ross Cutler, and Ivan Tashev, “Weighted speech distortion losses for neural-network-based real-time speech enhancement,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 871–875.
[17] “ITU-T P.831 subjective performance evaluation of network echo cancellers ITU-T P-series recommendations,” 1998.

【CSDN文章】智能音箱AEC中的回采信号

分类:

技术点:

相关文章: