如何进行未经训练的语音到文本转换器？答案

【问题标题】：How to go about making an untrained speech to text converter?如何进行未经训练的语音到文本转换器？
【发布时间】：2009-12-05 02:38:57
【问题描述】：

我从小就患有严重到极重度的耳聋，但幸运的是我可以像正常人一样说话。由于我的语音识别能力受损，即使是唇读，语言交流对我来说一直很困难。我只是通过阅读板、powerpoint幻灯片、书籍和互联网完成了学校和大学的学习。我目前的软件工程工作做得很好，但最近我觉得我必须付出一些努力来改善我的情况。

字幕是我在这个国家理解电视电影/节目的救命稻草，而我在过去 7 年里一直在享受这一点（我现在 31 岁）。

每当我与某人（甚至是陌生人）交谈时，我都强烈地感到需要能够在现实生活中看到字幕。我想开发一个未经训练的语音到文本转换器，一开始它甚至不需要为我拼出确切的单词，只有音节/语音提示也可以。

我已经用谷歌搜索了一段时间，但大多数结果要么是文本到语音，要么是半生不熟的语音识别尝试，向计算机发出语音命令。我真的很想得到一些关于如何开始这个项目的指示。具体来说，我需要一些步骤，例如如何处理音频文件以及我必须做什么样的处理才能尽可能快地获得近似语音。

【问题讨论】：

已经有几个很棒的链接了。多谢你们。我必须先想出一些简单的程序，然后考虑制作一个 iphone 应用程序，这样我就可以拥有一个实时隐藏字幕工具。远射，但值得一试。
很高兴我们能帮助你，乔伊。
向先生致敬，感谢您大胆的生活，以及自己决定做某事的决定。

【解决方案1】：

您可能想查看CMU's Sphinx project，它可以实时对文本进行语音转换。他们有一些demos 可以试用。

【讨论】：

有一个关于这个的课程：你可以在这里获取一些材料来学习ocw.mit.edu/courses/electrical-engineering-and-computer-science/…

【解决方案2】：

看看DSP guide，它更多的是关于低级的东西，但傅里叶变换和滤波等技术对音频处理非常重要。即使您不是从头开始，也可以欣赏其中的原理和应用。

也就是说，我敢打赌，从零开始，人们可以通过几天的工作创造出能够区分一组基本声音的东西......

【讨论】：

【解决方案3】：

这里有一些其他问题可能会给你一些想法：

祝你好运。

【讨论】：