【发布时间】:2011-12-05 07:10:24
【问题描述】:
为什么语音识别这么难?所涉及的具体挑战是什么?我已经阅读了question on speech recognition,它确实部分回答了我的一些问题,但答案主要是轶事而非技术。它也仍然没有真正回答为什么我们仍然不能在问题上投入更多的硬件。
我已经看到使用神经网络和环境 FFT 分析执行自动降噪的工具,结果非常好,所以我看不出为什么我们仍然在与噪音作斗争,除非在困难的情况下,比如非常响亮的背景噪音或多个语音源。
除此之外,不就是使用非常庞大、复杂、训练有素的神经网络进行处理,然后投入硬件使其工作得足够快吗?
我知道重口音是个问题,而且我们都有自己的俗语,但是当对方以缓慢而清晰的美国或英国口音说话时,这些识别引擎仍然会出错。
那么,交易是什么?有哪些技术问题让计算机仍然难以理解我?
【问题讨论】:
-
致标记为关闭此主题/不具建设性的人:我看不出你的推理。我要的是一个具体的答案,而不是一个列表或主观反应。这也是一个高度嵌入编程领域的挑战,因为它是一个已经存在很长时间的特定编程挑战,即“编写一些听我的话并理解它们的代码”。你能解释一下你为什么投票决定关闭吗?
-
不是。你需要看语言治疗师吗? (他们甚至做语音识别吗?)
-
我没有标记为关闭,但我可以看出为什么其他人有。它可能符合以下条件:此问题可能会征求意见、辩论、争论、投票或扩展讨论。
-
我不明白为什么会有争论。我只是想问是什么技术限制导致了这个问题。
-
那些投票结束的人(以及实际投票完全删除这个问题的人)可以解释一下吗?我完全赞成结束被认为不符合 SO 最佳利益的问题,但没有解释就结束本身不符合 SO 的最佳利益。
标签: algorithm theory speech-recognition