【问题标题】:How to generate timestamps in speech recognition?如何在语音识别中生成时间戳?
【发布时间】:2019-12-13 10:49:07
【问题描述】:

我正在做一个语音识别系统项目。我使用深度神经网络进行语音识别。但我还需要给定演讲中出现的单词的开始和结束时间。你能建议我或指导我解决语音识别中时间戳生成问题的资源吗?我知道亚马逊转录服务也会生成时间戳,但我无法获得有关此的论文。

【问题讨论】:

    标签: neural-network timestamp speech


    【解决方案1】:

    如果您有兴趣尝试 Microsoft 的语音服务 (https://aka.ms/speech/sdk),我们也支持字级时间戳。您可以从我们的一个快速入门示例开始(适用于多种编程语言),并且可以多行几行代码来获取字级时序信息。

    基本上,在尝试了默认的microphone quickstartfile quickstart 之后,您可以添加几行代码来请求单词级别的时间戳。您将添加另一行代码来检索服务提供的 json 响应(具有单词级别的时间信息)。

    例如,在 C# 中,您可以为 SpeechConfig 对象执行此操作:

    config.OutputFormat = OutputFormat.Detailed;
    config.RequestWordLevelTimestamps = true;
    

    一旦你收到了你的SpeechRecognitionResult 对象,你会这样做:

    var json = result.Properties.GetProperty(PropertyId.SpeechServiceResponse_JsonResult);
    Console.WriteLine(json);
    

    如果您使用其他受支持的编程语言(C++、Java、JavaScript、Objective-C、Swift、Python 等),代码会略有不同。

    祝你好运。

    Rob Chambers,微软
    建筑师和工程经理

    【讨论】:

      猜你喜欢
      • 2020-02-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多