千平 发自 凹非寺
量子位 出品 | 公众号 QbitAI

Deep Vioce又更新了……

在上一代发布五个月后,百度研发的文字转语音(TTS)AI再次升级。这次的版本是Deep Vioce 3。尽管百度官方还没有宣布此事,但相关论文已经发布在arXiv上。

Deep Vioce 3是一个基于注意力的全卷积神经TTS系统。与目前最先进的Tacotron系统相比,Deep Vioce 3训练速度提高了10倍。

百度在Deep Voice 3上,使用了来自超过2000个声源、长达800多个小时的音频进行训练。此外,百度找到了减少错误的方法。以及如何在一个单GPU服务器上,把推断规模化到每天1000万次查询。

与前两代相比,Deep Voice 3采用了基于注意力的序列到序列模型,这个模型的详细架构如下图所示。

百度悄然发布Deep Vioce 3

其中的注意力模块结构如下图所示。

百度悄然发布Deep Vioce 3

另外,百度还在论文中公布了模型使用的超参数。

百度悄然发布Deep Vioce 3

这篇论文的作者包括百度研究院的Wei Ping、Kainan Peng、Andrew Gibiansky、Sercan O. Arık、Ajay Kannan、Sharan Narang。

以及OpenAI的Jonathan Raiman,加州大学伯克利分校的John Miller。

论文地址在此:

https://arxiv.org/pdf/1710.07654.pdf


相关文章:

  • 2021-08-12
  • 2021-07-15
  • 2021-11-05
  • 2021-10-30
  • 2021-08-02
  • 2021-07-20
  • 2021-11-09
  • 2021-07-19
猜你喜欢
  • 2021-04-17
  • 2022-02-22
  • 2021-09-08
  • 2022-12-23
  • 2021-10-12
  • 2022-02-21
相关资源
相似解决方案