【问题标题】:Bing Speech to Text API returning very wrong textBing Speech to Text API 返回非常错误的文本
【发布时间】:2017-12-30 23:40:58
【问题描述】:

我正在尝试音频文件中的“Bing Speech To Text API”,其中包含在呼叫中心回答客户的人与呼叫呼叫中心解决疑虑的客户之间的真实对话。因此,这些音频有两个人在说话,有时在客户等待支持人员的答复时有很长的静音期。这些音频时长为 5 到 10 分钟。

我的疑问是:

使用 Microsoft 认知服务将此类音频翻译成文本的最佳方法是什么?

除了 Bing Speech To Text,我还必须使用哪些 API?

在将音频发送到 Bing Speech To Text 之前,我是否必须剪切或转换音频?

我之所以这么问,是因为 Bing Speech to text API 返回的文本与音频内容非常非常非常非常不同。这是不可能使用或理解的。但是,当然,我认为我做错了。

请问,您能否向我解释一下处理此类音频文件的最佳策略?

如果有任何帮助,我将非常高兴。 最好的问候,

【问题讨论】:

  • 你能分享你的代码吗?
  • 很可能是输入数据格式错误,例如您发送压缩音频而需要发送未压缩 pcm。对于此类任务,最好尝试使用 Kaldi 等专用 API。

标签: speech-to-text azure-cognitive-services


【解决方案1】:

我在对话中也遇到过这个问题。确保将转录模式设置为“对话”而不是“互动”。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-04-07
    • 1970-01-01
    • 2023-03-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多