百度悄然发布Deep Vioce 3

Deep Vioce又更新了……

在上一代发布五个月后，百度研发的文字转语音（TTS）AI再次升级。这次的版本是Deep Vioce 3。尽管百度官方还没有宣布此事，但相关论文已经发布在arXiv上。

Deep Vioce 3是一个基于注意力的全卷积神经TTS系统。与目前最先进的Tacotron系统相比，Deep Vioce 3训练速度提高了10倍。

百度在Deep Voice 3上，使用了来自超过2000个声源、长达800多个小时的音频进行训练。此外，百度找到了减少错误的方法。以及如何在一个单GPU服务器上，把推断规模化到每天1000万次查询。

与前两代相比，Deep Voice 3采用了基于注意力的序列到序列模型，这个模型的详细架构如下图所示。

百度悄然发布Deep Vioce 3

其中的注意力模块结构如下图所示。

百度悄然发布Deep Vioce 3

另外，百度还在论文中公布了模型使用的超参数。

百度悄然发布Deep Vioce 3

这篇论文的作者包括百度研究院的Wei Ping、Kainan Peng、Andrew Gibiansky、Sercan O. Arık、Ajay Kannan、Sharan Narang。

以及OpenAI的Jonathan Raiman，加州大学伯克利分校的John Miller。

论文地址在此：

https://arxiv.org/pdf/1710.07654.pdf