过滤掉某些语音 Google Speech API

【问题标题】：Filter out certain voice Google Speech API过滤掉某些语音 Google Speech API
【发布时间】：2019-08-01 08:31:44
【问题描述】：

我正在使用 Google Speech 流 API 和 Google Text to Speech 创建语音机器人。即使用户“打断”语音机器人的响应，我也希望只转录用户的语音。如何避免语音机器人转录自己的声音？

根据我在扬声器上使用现有语音机器人（例如 Siri）的测试，“过滤”某些声音的能力似乎是可行的。

谢谢

【问题讨论】：

标签： speech-recognition text-to-speech google-speech-api transcription

【解决方案1】：

虽然 Google Speech API 中没有开箱即用的此类功能，但您可以尝试一些众所周知的算法。音频波是相加的，因此从自身减去音频流等于零（静音）。考虑到这一点并为您的语音机器人音频输出提供单独的流，一种方法是从用户的输入语音中减去语音机器人的语音。如果您无法访问任何一个音频流或无法将它们分开，另一种方法是应用 speaker diarisation 从一个中提取两个语音源。

请注意，如果您对两个流进行简单的减法，您可能无法达到预期的效果，因为减法也会衰减音频。相反，您需要将减去的流和mix 与减去它的流进行反转。

【讨论】：