【问题标题】:Transcribing WMA/MP3 audio in an automated fashion?以自动方式转录 WMA/MP3 音频?
【发布时间】:2009-09-30 17:40:01
【问题描述】:

我有很多 WMA 格式的语音音频,我想对其进行机器转录 - 即使转录不是 100% 准确,我认为它可以作为一些“索引”来帮助一些人的音频。我愿意编写一些代码来实现这一点,但微软的语音 API 可以帮助我吗?是否已经有可以为我执行此操作的应用程序?

【问题讨论】:

    标签: speech-to-text


    【解决方案1】:

    SAPI 当然可以做你想做的事。从进程内识别器开始,将音频连接为文件流(您可能需要将 WMA 文件转码为 WAV 流,因为 SAPI 只接受 WAV 输入,但您可以即时进行转码),设置听写模式,然后出发。

    现在是令人失望的一点。你可能不会得到非常好的结果;事实上,我怀疑除非你非常幸运,否则你可能会得到完全的垃圾。

    有几个问题:

    1. 只有在训练了 SR 引擎后,听写才能真正发挥作用。如果你很幸运(像我一样),你可以获得不错的结果,但如果说话者有口音,则必须进行培训。
    2. 训练只适用于单一声音。如果您在一个音频文件中有多个扬声器,则效果不佳。
    3. 听写(以及一般的语音识别)的音频模型假设您使用的是近距离通话麦克风(即,靠近您脸部的麦克风,以最大程度地减少噪音拾取)。如果您的 WMA 文件有额外的噪音,准确度会急剧下降。

    我实际上建议使用 Dragon Naturally speak Professional;他们花费了时间和金钱来进行转录工作。我自己没用过,不知道在你的情况下效果如何。

    【讨论】:

    • 我对 Dragon Naturally speak 进行了一些研究,转录工具假设它从录音机或类似工具中获取输入,所以它有一组类似的问题(它需要培训,假设一个声音,并假设麦克风靠近扬声器)。
    • 确实如此,但之前已经成功使用Dragon引擎进行“音频挖掘”。如果你需要一个准确的成绩单,你会失望的。如果您想查找关键字或短语,则可以在质量合理的音频源(如电视,而不是电话会议录音)上找到它。这是几年前的事了,但我相信它并没有变得更糟。
    【解决方案2】:

    你需要一个相应的程序来实现这一点,比如听写软件。 Speech API 则相反。我也不相信这有什么开源的,因为这是一个非常非常复杂的软件。

    【讨论】:

    • SAPI 涵盖了识别和合成,所以它肯定是可以使用的。不过,我不熟悉它,所以我不能说即使在非英语操作系统上,Windows 是否真的提供对英语的内置识别的访问。不过,它可能仍然足以让您入门。
    • 哦,不知道。才想起XP里的东西,既然你这么说,Vista就有这个识别功能。
    猜你喜欢
    • 2013-10-25
    • 1970-01-01
    • 1970-01-01
    • 2012-09-19
    • 2016-02-02
    • 1970-01-01
    • 1970-01-01
    • 2017-09-08
    • 2013-08-05
    相关资源
    最近更新 更多