科大讯飞：听见中国智能语音技术最强音

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

科大讯飞：听见中国智能语音技术最强音

作者：杨玄章

来源：《大学生》2017年第05期

新生报到季，某校刚刚入学的新同学没有像以往一样领到厚厚的一本新生指南，取而代之的是一个叫“新生助手”的小盒子或者手机“小马甲”。在这个陌生的环境下，这个“新生助手”就成为了同学们融入校园生活最可靠的伙伴了。

语音技术进校园

“哪里可以买到便宜的洗漱用品？”新生小贾刚刚把行李放下，就要买必备的生活用品了。

“小助手”回答道：“学校周边步行范围内有两个超市，一个物美超市在南门外面的学府街2号，一个是学生超市在学校的二食堂边上。您是要买牙刷、牙膏和毛巾么？请选择一下吧。”这时，在智能设备的屏幕上，展现了这两个超市的地图，同时把小贾可能要买的东西在这两个超市的价格都罗列在下面。

小贾很高兴地说道：“好啊，就这几个东西吧，我想从学校里的学生超市买这几样。给我送到宿舍来吧。”

“好的，”接到了小贾的指示，“小助手”直接下了单，“东西会在30分钟之后送达。另外，今天是新学期第一天，你要不要去校园里看看呢？”

小贾问道：“去哪里看好呢？新学期学校应该有什么活动吧？”

“小助手”依次列出了今天学校所有的活动和地点：“10点到17点，北门小树林有各个社团的招新活动；10点到11点，我的朋友S博士会介绍学校的智能授课评估系统……”

“这个智能授课要去听，据说以后我们的课堂综合评分，都是由这个智能语音系统来完成的。”同宿舍的小于在旁边忍不住插嘴。

“好啊！那就帮我们订两个座位吧，我们10点去参加S博士的演讲。”小贾说。

几秒钟后，“小助手”在其上方投射出一个报告厅的全息座位图，其中有两个座位高亮显示：“定好了！你们的座位在在H21和H23。报告厅离宿舍不远，我已经把路线图推送到你们的手机上了。”

小贾和小于顺着地图的指引，刚刚来到报告厅门口，“小助手”先跳出来和“S博士”打招呼了：“S博士你好，这是新生小贾和小于，今天来学习智能授课评估系统。”

这时候，教室门口突然跳出来一个戴博士帽的大胖子博士全息图，很热情地和大家打招呼：“欢迎欢迎，今天还有另一个校区的同学，通过全息在线和我们互动。”

大家坐定之后，一个更大号的“博士帽”被投射到最前面，“S博士”开始详细地讲解如何与该系统进行良好的互动，从而争取到更好的课堂分数。

其中有一点最让小贾印象深刻：回答课堂问题时，你们只要以你最喜欢的方式说出你的想法就好了，我们的系统会全面分析你的答案，并分析你的语气和语速，从而得到最好的分数。

会议的最后，小贾和小于很好奇地问“小助手”：“S博士到底在哪个校区工作啊？”

“小助手”嘿嘿一笑说：“S博士和我一样啊，是你们的智能语音助手哦。”

看过上面的故事，有的同学也许会问：这是哪个科幻小说中的场景？如果是在几年前，这样的场景也许还是人们对于遥远未来智能社会的幻想。不过，最近智能语音领域的迅猛发展，让很多这样的“科幻”场景即将成为现实。

那么，智能语音从哪里来到哪里去？未来这方面的技术会如何改变我们的社会和生活？带着这些问题，我们采访了这个领域在中国成长起来的大咖：科大讯飞。

最早接近“人类智能”的领域

近年来，“人工智能”这四个字在各个方向“轰炸”着人们的认知。事实上，这四个字意味着语音、图像、视频、文本、日志分析等多个领域。在这些个领域里面，很多离真正的“人类智能”还有一定距离。但是，智能语音领域却有着不一样的进展。

2015年，科大讯飞最新语音转写产品“讯飞听见”将中文普通话识别和转写的实用准确率提高到了95%以上，远超过人类专业速记员的速度和准确度。这个不同寻常的发布与那些最新研究成果和技术实验有很大的不同，这标志着中文智能语音的技术已经可以真真实实地达到人类的水平。

“科大讯飞虽然成立18年了，但是在语音识别领域其实还是个新兵，”讯飞负责人这样告诉记者：“最早的语音识别技术可以追溯到上世纪50年代，贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统；1960年英国Denes等人研究成功第一个计算机语音识别系统。大规模的语音识别研究始于上世纪70年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展。”

上世纪90年代以后，大词汇量连续语音识别得到优化，在语音识别技术的应用及产品化方面出现了很大的进展。1997年，IBM Viavoice首个语音听写产品问世。

自2009年以来，借助机器学习领域深度学习研究的发展以及大数据语料的积累，语音识别技术得到突飞猛进的发展。2010年，谷歌发布VoiceAction支持语音操作与搜索。2011年初，微软的深度神经网络（DNN）模型在语音搜索任务上获得成功。也就在同年，苹果手机助理Siri首次亮相，人机交互掀开了新的篇章。

科大讯飞成立于1999年，相比这些巨头来说，是个不折不扣的“新兵”，刚开始难免是要坐冷板凳的。但是，在多年的積累之后，科大讯飞在智能语音领域中的贡献让人刮目相看。有些人认为中国的企业可能在中文智能语音方面积累更多一些，事实上，科大讯飞在历次的国内外语音合成评测中，各项关键指标均名列第一。2008年至今，科大讯飞连续在国际说话人、语种识别评测大赛中名列前茅。2014年，科大讯飞首次参加国际口语机器翻译评测比赛（International Workshop on Spoken Language Translation）即在中英和英中互译方向中以显著优势勇获第一。2016年，国际语音识别大赛（CHiME）科大讯飞取得全部指标第一；在认知智能领域，相继获得国际认知智能测试（Winograd Schema Challenge）全球第一、国际知识图谱构建大赛（NIST TAC Knowledge Base Population Entity Discovery and Linking Track）核心任务全球第一。

智能語音技术从简单的比赛和实验室成果，到真正的实用化，甚至超过人类的智能水平，要做的工作比我们想象得要复杂得多。如果我们打开“讯飞听见”的技术链，发现其集成了包括语音转写识别技术、篇章级处理方案、自然语言处理技术、阵列解混响技术、口语化风格处理技术、声纹识别等多方面的技术，为了应对每个人之间的个体化的差异，方言语音识别、高抗噪语音识别、个性化识别等多方面的功能也是必不可少的。去年12月，“ 讯飞听见”的升级版本在原实时转写汉字的基础上，还可同步翻译为英、日、韩、维等多种语言。

更高阶：认知智能

人工智能的“旅程”中，在很长一段时间，一直处于“能存会算”的计算智能时代。在这一时期，机器还是计算的机器，人类和机器交互的方式还很有限很低效，在有限的交流中，机器能按照人来安排的指令，完成特定的功能已经算是合格了。

智能语音领域的发展，率先将机器的“听、说、理解”能力拉升到了“感知智能”的阶段。以谷歌、微软、讯飞为代表的一批优秀的企业和机构将语音的识别、认知、合成、翻译等能力植入了机器内。同时，在教育、车载、家居、通信、硬件和城市等多个领域，产生了丰富的应用。

“现在我们要进入认知智能阶段了。”科大讯飞强调说。从最新的讯飞产品线来看，在教育评测、知识服务、智能客服、机器翻译等领域，机器已经开始具备了“能理解会思考”的能力了。“人工智能在智能语音这个领域里已经超过人类了。最近我们在做一些教育评测领域的实践。如今，机器主观题阅卷技术对语文、英文等学科的评分已达到或超过人工评分水平。”