【问题标题】:How to count the number of spoken syllables in an audio file?如何计算音频文件中的语音音节数?
【发布时间】:2022-05-03 19:02:27
【问题描述】:

我有许多音频文件干净,只有普通话语音。我需要估计每个文件中有多少个音节。是否有适用于 OS X、Windows 或 Linux 的工具可以估算这些?

sample01.wav 15
sample02.wav 8
sample03.wav 5
sample04.wav 1
sample05.wav 18

由于文件较多,首选命令行或批处理软件,例如:

$ application sample01.wav
15
  • 使用语音到文本然后计算出现的字符数的解决方案将适合。

【问题讨论】:

  • 我只是想知道一个答案(来自@navneet35371)如何得到奖励(+450),而这个答案在我之后,并且只包含我在答案中给出的一个链接。好像不公平吧?
  • 对不起,我弄错了。我知道 Speechrate 脚本解决了这个问题,但我没有意识到它在两个不同的帖子中提到过。当我有更多的积分时,我会想办法给你奖励积分。
  • 没关系 - 我可以让它更明显。并且请给你点其他有用的赏金,我很乐意再次提供帮助。

标签: nlp speech-recognition


【解决方案1】:

语音的自动分割是一个活跃的科学领域,这意味着没有完美的方法。

2009 年,de Jong 和 Wempe 提出了一种使用Praat 自动检测人类语音信号中的音节的方法。这种方法与人为分割相比,效果很好,并已在许多第三方科学研究中得到应用。您可以在他们的科学文章 (pdf) 中找到对该方法的详细描述,以及对先前提出的方法的历史观点。 Praat 脚本本身和一些教程可以在专门的网站 (www - speechrate) 上找到。

您可能还对Harma 开发的另一种分割算法感兴趣,该算法已在 Matlab 中实现 (Harma Syllable Segmentation)

【讨论】:

    【解决方案2】:

    您可以使用共振峰来确定这一点。每个音节都应该对应一个共振峰。以下是有关共振峰的更多信息:

    https://en.wikipedia.org/wiki/Formants

    【讨论】:

      【解决方案3】:

      您可能对此感兴趣

      http://sites.google.com/site/speechrate/

      【讨论】:

        【解决方案4】:

        您的问题需要对 Speech to Text 的特别关注和解决方案。 我真的怀疑是否会提供任何免费的开源库,易于获得并服务于目的。

        我使用了一个,但用于相反的目的“文本到语音”。 虽然这不是一个免费的图书馆,但我很乐意帮助谷歌“annosoft lipsync”......

        http://www.annosoft.com/lipsync-sdks
        

        此库也可用于 SDK 评估....

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2022-01-01
          • 1970-01-01
          • 2019-02-23
          • 2012-11-13
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多