【问题标题】:Filter out certain voice Google Speech API过滤掉某些语音 Google Speech API
【发布时间】:2019-08-01 08:31:44
【问题描述】:
我正在使用 Google Speech 流 API 和 Google Text to Speech 创建语音机器人。即使用户“打断”语音机器人的响应,我也希望只转录用户的语音。如何避免语音机器人转录自己的声音?
根据我在扬声器上使用现有语音机器人(例如 Siri)的测试,“过滤”某些声音的能力似乎是可行的。
谢谢
【问题讨论】:
标签:
speech-recognition
text-to-speech
google-speech-api
transcription
【解决方案1】:
虽然 Google Speech API 中没有开箱即用的此类功能,但您可以尝试一些众所周知的算法。音频波是相加的,因此从自身减去音频流等于零(静音)。考虑到这一点并为您的语音机器人音频输出提供单独的流,一种方法是从用户的输入语音中减去语音机器人的语音。如果您无法访问任何一个音频流或无法将它们分开,另一种方法是应用 speaker diarisation 从一个中提取两个语音源。
请注意,如果您对两个流进行简单的减法,您可能无法达到预期的效果,因为减法也会衰减音频。相反,您需要将减去的流和mix 与减去它的流进行反转。