【发布时间】:2024-01-10 22:25:02
【问题描述】:
我如何区分两个人说话?就像有人说“你好”然后另一个人说“你好”我应该在音频数据中寻找什么样的签名?周期性?
非常感谢任何可以回答这个问题的人!
【问题讨论】:
标签: audio speech-recognition signatures
我如何区分两个人说话?就像有人说“你好”然后另一个人说“你好”我应该在音频数据中寻找什么样的签名?周期性?
非常感谢任何可以回答这个问题的人!
【问题讨论】:
标签: audio speech-recognition signatures
这个问题的解决方案在于数字信号处理 (DSP)。说话人识别是一个复杂的问题,它使计算机和通信工程齐头并进。大多数说话人识别技术都需要使用机器学习进行信号处理(通过说话人数据库进行训练,然后使用训练数据进行识别)。可以遵循的算法概要 -
有两种支持说话人识别的开源实现 - ALIZE:http://mistral.univ-avignon.fr/index_en.html 和 MARF:http://marf.sourceforge.net/。
我知道回答这个问题有点晚了,但我希望有人觉得它有用。
【讨论】:
这是一个极其困难的问题,即使对于语音和信号处理专家来说也是如此。此页面有更多信息:http://en.wikipedia.org/wiki/Speaker_recognition
以及一些建议的技术起点:
使用的各种技术 处理和存储声纹包括 频率估计,隐马尔可夫 模型,高斯混合模型, 模式匹配算法,神经 网络,矩阵表示,向量 量化和决策树。一些 系统还使用“反扬声器” 技术,例如队列模型,以及 世界模型。
【讨论】:
只有两个人来区分,如果他们说出相同的单词或短语,这会更容易。我建议从简单的事情开始,只根据需要增加复杂性。
首先,我会尝试按时间和幅度或(如果您有方便的软件功能)对整个话语进行 FFT 分箱的数字波形的样本计数。我也会首先考虑一个基本的建模过程,例如线性判别(或任何你已经可用的)。
【讨论】:
另一种方法是使用一组麦克风并区分声源的位置和方向。我认为这是一种更简单的方法,因为位置计算比从单声道或立体声源中分离不同的扬声器要简单得多。
【讨论】: