如何计算音频文件中的语音音节数？答案

【问题标题】：How to count the number of spoken syllables in an audio file?如何计算音频文件中的语音音节数？
【发布时间】：2022-05-03 19:02:27
【问题描述】：

我有许多音频文件干净，只有普通话语音。我需要估计每个文件中有多少个音节。是否有适用于 OS X、Windows 或 Linux 的工具可以估算这些？

sample01.wav 15
sample02.wav 8
sample03.wav 5
sample04.wav 1
sample05.wav 18

由于文件较多，首选命令行或批处理软件，例如：

$ application sample01.wav
15

使用语音到文本然后计算出现的字符数的解决方案将适合。

【问题讨论】：

我只是想知道一个答案（来自@navneet35371）如何得到奖励（+450），而这个答案在我之后，并且只包含我在答案中给出的一个链接。好像不公平吧？
对不起，我弄错了。我知道 Speechrate 脚本解决了这个问题，但我没有意识到它在两个不同的帖子中提到过。当我有更多的积分时，我会想办法给你奖励积分。
没关系 - 我可以让它更明显。并且请给你点其他有用的赏金，我很乐意再次提供帮助。

标签： nlp speech-recognition

【解决方案1】：

语音的自动分割是一个活跃的科学领域，这意味着没有完美的方法。

2009 年，de Jong 和 Wempe 提出了一种使用Praat 自动检测人类语音信号中的音节的方法。这种方法与人为分割相比，效果很好，并已在许多第三方科学研究中得到应用。您可以在他们的科学文章 (pdf) 中找到对该方法的详细描述，以及对先前提出的方法的历史观点。 Praat 脚本本身和一些教程可以在专门的网站 (www - speechrate) 上找到。

您可能还对Harma 开发的另一种分割算法感兴趣，该算法已在 Matlab 中实现 (Harma Syllable Segmentation)

【讨论】：

【解决方案2】：

您可以使用共振峰来确定这一点。每个音节都应该对应一个共振峰。以下是有关共振峰的更多信息：

https://en.wikipedia.org/wiki/Formants

【讨论】：

【解决方案3】：

您可能对此感兴趣

http://sites.google.com/site/speechrate/

【讨论】：

【解决方案4】：

您的问题需要对 Speech to Text 的特别关注和解决方案。我真的怀疑是否会提供任何免费的开源库，易于获得并服务于目的。

我使用了一个，但用于相反的目的“文本到语音”。虽然这不是一个免费的图书馆，但我很乐意帮助谷歌“annosoft lipsync”......

http://www.annosoft.com/lipsync-sdks

此库也可用于 SDK 评估....

【讨论】：