人工智能在语音识别方面胜过人类_专栏

进行对话并精确转录是人工智能（AI）研究中的最大挑战之一。目前，卡尔斯鲁厄技术学院（KIT）的研究人员首次成功开发了一种计算机系统，该系统在以最小的等待时间识别这种自发的语言方面表现优于人类。这是在arXiv.org上报告的。

KIT信息学教授亚历克斯•韦贝尔(Alex Waibel)表示:“当人们交谈时，会出现停顿、结巴、犹豫，比如‘呃’或‘嗯’，还会大笑或咳嗽。”“单词通常发音不清楚。”这使得人们甚至很难准确地记录谈话内容。“到目前为止，这对人工智能来说更加困难。”KIT公司旗下的初创公司kite的科学家和员工现在已经编写了一套计算机系统，该系统能比人类更好地执行这项任务，而且比其他系统更快。

威贝尔（Waibel）已经开发了一种自动实时翻译器，可以直接将德语或英语的大学讲座翻译成外国学生使用的语言。自2012年以来，该“演讲翻译器”已在KIT的演讲厅中使用。“对自发语音的识别是该系统的最重要组成部分，” Waibel解释说，“由于识别过程中的错误和延误使翻译难以理解。，人为错误率约为5.5％。我们的系统现在达到5.0％。” 但是，除了精度外，系统产生输出的速度同样重要，因此学生可以实时听课。研究人员现已成功减少了这种延迟一秒钟。Waibel说，这是迄今为止语音识别系统所达到的最小延迟。

错误率和等待时间是使用标准化的、国际认可的科学“交换机基准测试”测试的。该基准（由美国国家标准与技术研究院（NIST）定义）在国际AI研究人员的竞争中被广泛使用，以构建一种在可比条件下甚至更胜一筹的条件下，能够识别人类自发言语的机器。

Waibel认为，快速，高精度的语音识别是进一步下游处理的重要步骤。它使对话，翻译和其他AI模块能够提供更好的基于语音的与机器的交互。

人工智能在语音识别方面胜过人类

易百纳技术社区

审核成功

审核失败