识别声音是男性还是女性答案

【问题标题】：Identifying voice as male or female识别声音是男性还是女性
【发布时间】：2011-03-04 16:37:28
【问题描述】：

我不太喜欢音频工程，所以请放轻松。我正在接收一个音频文件作为输入，并且需要检测说话者是男性还是女性。任何想法如何去做这件事？

我正在使用 php，但对使用其他语言持开放态度，只要时间与任务相称，不介意学习一点合理的理论。

【问题讨论】：

是否足以确定声音的频率在统计上更有可能是男性还是女性？否则，您可能会被困在玩模仿游戏：en.wikipedia.org/wiki/…
@Mark，如果你说出来，我会相信你的话
在实时交互中使用您从中获得的信息时要小心。如果人们认为你认错了他们的性别，他们会变得相当敌对。如果您打算这样做，请保持非常微妙。推销非常针对性别的推销或使用“先生/女士”会花费你远远超过你可能摆脱它的成本。
我建议你拍摄两个人（一男一女）以相同语气说出句子的声音片段。将其加载到音频程序中，并寻找两个剪辑的音高和波动之间的视觉区别。当然，这只是一个小样本，但它应该可以帮助您入门。像这样的事情确实需要随着时间的推移建立在数据的基础上才能获得相当准确的结果。

【解决方案1】：

首先，您必须找到音高值，并且可以在这篇文章中找到一种用于查找语音音高值的出色算法：http://www.fon.hum.uva.nl/paul/papers/Proceedings_1993.pdf。

它非常准确。

【讨论】：

【解决方案2】：

一种方法是使用人工神经网络。您为神经网络提供了一些训练示例，它有望学会正确分类声音。您可能需要使用傅立叶变换进行一些特征提取，以将数据转换为合适的形式。

如果您在 Google 上搜索“神经网络说话人识别”，有几篇关于这种方法的论文，但不幸的是，我对它们不够熟悉，无法推荐任何特定的。

【讨论】：

【解决方案3】：

我支持 Christophe，因为我在这方面没有太多经验，并且认为一些研究将是你的最佳途径。

如果我不得不对此进行尝试，我猜想这将涉及使用傅里叶变换计算样本的频谱，然后找出平均频率所在的位置。针对不同的文化和语言建立大量的男性和女性样本，然后将您的特定样本的平均频率与男性和女性的既定平均值进行比较。

不过我可能完全错了，所以研究确实是你最好的选择。

【讨论】：

【解决方案4】：

我无法对这个问题提供具体的见解，但我会先阅读以下文章：Gender Classification from Speech。

这至少应该让您了解所涉及的概念/方法（据我所知，本文对此进行了很好的描述）。

【讨论】：