【发布时间】:2019-12-13 10:49:07
【问题描述】:
我正在做一个语音识别系统项目。我使用深度神经网络进行语音识别。但我还需要给定演讲中出现的单词的开始和结束时间。你能建议我或指导我解决语音识别中时间戳生成问题的资源吗?我知道亚马逊转录服务也会生成时间戳,但我无法获得有关此的论文。
【问题讨论】:
标签: neural-network timestamp speech
我正在做一个语音识别系统项目。我使用深度神经网络进行语音识别。但我还需要给定演讲中出现的单词的开始和结束时间。你能建议我或指导我解决语音识别中时间戳生成问题的资源吗?我知道亚马逊转录服务也会生成时间戳,但我无法获得有关此的论文。
【问题讨论】:
标签: neural-network timestamp speech
如果您有兴趣尝试 Microsoft 的语音服务 (https://aka.ms/speech/sdk),我们也支持字级时间戳。您可以从我们的一个快速入门示例开始(适用于多种编程语言),并且可以多行几行代码来获取字级时序信息。
基本上,在尝试了默认的microphone quickstart 或file quickstart 之后,您可以添加几行代码来请求单词级别的时间戳。您将添加另一行代码来检索服务提供的 json 响应(具有单词级别的时间信息)。
例如,在 C# 中,您可以为 SpeechConfig 对象执行此操作:
config.OutputFormat = OutputFormat.Detailed;
config.RequestWordLevelTimestamps = true;
一旦你收到了你的SpeechRecognitionResult 对象,你会这样做:
var json = result.Properties.GetProperty(PropertyId.SpeechServiceResponse_JsonResult);
Console.WriteLine(json);
如果您使用其他受支持的编程语言(C++、Java、JavaScript、Objective-C、Swift、Python 等),代码会略有不同。
祝你好运。
Rob Chambers,微软
建筑师和工程经理
【讨论】: