在线视听数据的音频内容分析答案

【问题标题】：Audio content analysis for online audiovisual data在线视听数据的音频内容分析
【发布时间】：2012-02-04 06:47:11
【问题描述】：

我想从事一个项目，我必须根据其音频内容对在线视听数据进行分段和分类，即将视听数据的不同部分进行分段并分类为静音、音乐、语音、语音+背景音乐等基于他们的音频内容。

我知道我必须从视听数据中获取音频部分并提取过零、频谱峰值等特征，并找出片段边界以便分割音频数据。

但我迷失在开始本身。

我不知道如何开始这个项目。软件的输出是不同类别的视听数据片段，如静音、语音、音乐等。

如果有人告诉我会很有帮助

哪种编程语言方便此目的？
为了开发这个软件，我应该遵循哪些步骤？

我没有数字信号处理方面的背景。如果我得到一些指导，那将非常有帮助

【问题讨论】：

标签： audio video-processing multimedia

【解决方案1】：

我建议研究一个多媒体框架，例如GStreamer。它是跨平台的，但在它起源的 Linux 上最容易上手。它已经带有各种插件来接收、解复用和解码音频和视频。它还有几个分析器（例如用于音频和语音活动检测的电平和频谱分析器）。这些可能是您实验的一个很好的起点。 Gstreamer 本身是用 C 编写的，但应用程序可以使用语言绑定到 python、perl、c#、c++、java ......

【讨论】：