【发布时间】:2018-04-06 01:18:47
【问题描述】:
我正在构建一个简单的程序,可以用人声说出电话号码。
为此,我预先录制了每个数字(使用不同的语调),当我得到一个数字时,我加入音频文件并一起播放它们,并在数字之间添加一些静音。
但是,这听起来并不流畅或自然。
我尝试对文件进行增益和速度标准化,但感觉我需要以某种“智能”方式加入它们,以便过渡听起来自然。
我寻找了一些算法来做到这一点,但没有找到任何东西。
有没有已知的方法?
谢谢。
【问题讨论】:
-
如果您可以添加包括频谱在内的一个结果信号的可视化效果,将会很有帮助。您可以为此使用praat。它会使事情变得更容易,例如发现更简单的问题,例如与噪音向绝对沉默的过渡有关。
-
如果您采用一种简单的方法,您可以研究“连奏”(来自音乐),并通过在各个数字之间录制“连奏”将其应用于声音,并将其用于过渡。
标签: audio text-to-speech speech