Python说话者识别[关闭]

【问题标题】：Python Speaker Recognition [closed]Python说话者识别[关闭]
【发布时间】：2025-02-10 04:40:02
【问题描述】：

我有一个音频文件，一个 2 人的电话录音，我需要自动分离 2 个扬声器的声音。我是语音识别的新手，我查看了 python 的 wave 模块，但没有找到任何有用的信息。

请帮助如何开始。另外请建议我免费的python库，这将帮助我解决问题。

【问题讨论】：

标签： python voice-recognition speech

【解决方案1】：

分离说话人的任务不是语音识别任务，而是说话人识别任务。在语音社区中，此任务也称为说话者分类。有几个可用于 Python 的说话人分类和说话人识别包：

SIDEKIT from LIUM

Bob toolkit from Idiap

Speaker diarization from ISCI

如果您不限于 Python，还有其他：

LIUM speaker diarization

Speaker recognition setup in Kaldi。包括最先进的基于 DNN 的 i 向量，称为 x 向量。

【讨论】：

Bob 工具包的链接实际上已经死了，请关注这个：idiap.ch/software/bob/docs/bob/bob.bio.spear/stable/…
已更新，谢谢！

【解决方案2】：

从 numpy 开始，我会将频谱图（基本上是滚动 FFT）视为区分录音中不同声音的好方法。

这是Matplotlib中的频谱图函数：

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

如果您刚开始使用 Windows 平台，我会推荐 Python(x,y)。

【讨论】：

【解决方案3】：

查看 sciKits Talkbox：http://projects.scipy.org/scikits/wiki/Talkbox

不幸的是，教程非常有限：http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html

【讨论】：

【解决方案4】：

看看 CMU Sphinx Python 库。它是用 Java 开发的，所以我认为 Python 库只是它的包装器。该项目背后有大量正在进行的研究。

官方维基：http://cmusphinx.sourceforge.net/wiki/

Linux 快速入门教程：http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python

【讨论】：

猜你喜欢

[关闭] 2025-11-21
如何将文本文件的部分切片成新文件[关闭] 2025-11-21
PHP：使用 header() 更改引用者 2025-11-21
ASP.NET 中的 SVN 与 Ankh 的日常使用基础知识 2025-11-21
在 ASP .NET MVC 中使用关联的 Jquery 进度条 2025-11-21
python：测试数组并打印名称 2025-11-21
带有 if/else 和 append 函数的 Python for 循环 2025-11-21
如何为python自定义类进行类型转换 2025-11-21
例如，是否可以在手机上打开游戏，或者在我的应用程序中进入图库？ 2025-11-21
如何使用 selenium 和 PhantomJS 在 python 中打开新选项卡 2025-11-21

相关资源

PHP关键词淘宝客程序源码 v1.0下载 2023-02-19

最近更新更多

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式