【发布时间】:2017-03-06 19:20:50
【问题描述】:
我有一个语言学习应用,想检测用户说出某些单词和句子的发音。
如果我可以提供 1000 个用户音频文件,每个音频文件的评分为 100 分(满分),我能否预测满分(满分 100 分)的发音好坏?
【问题讨论】:
标签: tensorflow tensorflow-serving
我有一个语言学习应用,想检测用户说出某些单词和句子的发音。
如果我可以提供 1000 个用户音频文件,每个音频文件的评分为 100 分(满分),我能否预测满分(满分 100 分)的发音好坏?
【问题讨论】:
标签: tensorflow tensorflow-serving
我不明白为什么不这样做,但这是一个非常普遍的问题......我会先阅读如何对音频进行矢量化处理。 These guys 使用神经网络生成音频数据,也许你可以看看他们如何获取数据并做类似的事情。然后将其向量化后,将向量作为输入传递,并将分数作为标签传递。
【讨论】: