如何在语音识别中生成时间戳？答案

【问题标题】：How to generate timestamps in speech recognition?如何在语音识别中生成时间戳？
【发布时间】：2019-12-13 10:49:07
【问题描述】：

我正在做一个语音识别系统项目。我使用深度神经网络进行语音识别。但我还需要给定演讲中出现的单词的开始和结束时间。你能建议我或指导我解决语音识别中时间戳生成问题的资源吗？我知道亚马逊转录服务也会生成时间戳，但我无法获得有关此的论文。

【问题讨论】：

【解决方案1】：

如果您有兴趣尝试 Microsoft 的语音服务 (https://aka.ms/speech/sdk)，我们也支持字级时间戳。您可以从我们的一个快速入门示例开始（适用于多种编程语言），并且可以多行几行代码来获取字级时序信息。

基本上，在尝试了默认的microphone quickstart 或file quickstart 之后，您可以添加几行代码来请求单词级别的时间戳。您将添加另一行代码来检索服务提供的 json 响应（具有单词级别的时间信息）。

例如，在 C# 中，您可以为 SpeechConfig 对象执行此操作：

config.OutputFormat = OutputFormat.Detailed;
config.RequestWordLevelTimestamps = true;

一旦你收到了你的SpeechRecognitionResult 对象，你会这样做：

var json = result.Properties.GetProperty(PropertyId.SpeechServiceResponse_JsonResult);
Console.WriteLine(json);

如果您使用其他受支持的编程语言（C++、Java、JavaScript、Objective-C、Swift、Python 等），代码会略有不同。

祝你好运。

Rob Chambers，微软
建筑师和工程经理

【讨论】：