智能语音开启人机交互新时代

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

智能语音开启人机交互新时代
作者：暂无
来源：《新经济导刊》 2017年第1期
如果你坐在车里，对着空气说，“我想在附近找个地方吃饭”。

你的车会立即回应说“已
为您找到附近10 个餐厅”。

你接着说：“我想吃火锅，还想看场电影。

”汽车会筛选出周边
有电影院的海底捞王府井店。

如果你说现在前往，导航就会立即开始线路规划。

注意，这不是说梦话，这是千真万确。

整个过程，你不需要打招呼，也不需要动手进行任
何操作。

对于开车的司机来说，这套由科大讯飞研发的“飞鱼助手”语音操作系统简直是梦寐
以求的行车神器。

现在，讯飞、百度等企业的人工智能已经把科幻片一样的黑科技变成了现实。

汽车、电视机、电冰箱、电灯，任何你能想到的电器都能跟你愉快地聊天，并按照语音指令完
成各种操作。

这些都是基于深度神经网络的语音识别技术来实现的。

语音识别技术，简单说就是让计算
机“听懂”人类的语音, 将语音中包含的文字信息提取出来。

该项技术在智能计算机系统中扮
演着重要角色, 相当于给计算机装上了“耳朵”，使其实现人机通信和交互。

目前语音识别准
确率可达到97%。

“随着万物互联时代到来, 以语音为主、键盘触摸为辅的人机交互正逐渐成为刚需。

未来
5到10 年, 人工智能会像水和电一样成为我们生活的必需品，深刻改变我们的世界。

”科大讯飞董事长刘庆峰说。

如今，以智能语音技术为主的人工智能已在手机、教育、家具、汽车、医疗、服务机器人
等多个领域显示出巨大的应用潜力。

事件
国内首个动漫IP 定制儿童智能语音灯在京东众筹
国内首个结合《虫虫派》动漫IP 进行深度定制的智能家居产品——虫虫派系列智能语音
灯已在京东火热开启众筹。

据悉，虫虫派系列智能语音灯是轻生活科技根据中国领导力学术带
头人杨思卓的作品《虫虫派》3D 动漫进行IP 深度整合定制的智能语音灯，是给12 岁以下的
小朋友特别定制的成长玩伴。

杨思卓长期致力于领导力研究和少儿教育，非常关注儿童成长，其漫画图解领导力的《虫
虫派》用寓教于乐的形式，依据现代心理学特点，塑造了6 个生动活泼的动漫形象，通过他们
的成长故事来引导小朋友提升面对困难和人际关系的处理能力，而虫虫派系列智能语音灯正好
对应了这6 个动漫形象。

动漫IP 与智能语音灯完美结合。

每台智能语音灯那肤如凝脂又亭亭玉立的陶瓷灯身上都
有与之相对应的动漫形象，并在灵动的宽檐帽上搭配有与动漫形象性格相匹配的色彩，还动用
了《虫虫派》原班声优为角色对应的智能语音灯进行声音录制，希望通过动漫IP 整合和人机
交互的形式，将《虫虫派》积极向上的思想理念潜移默化的传递出来，陪伴每一位小朋友更健
康快乐的成长。

离线智能语音技术强大又有趣。

作为主打“智能语音”的灯，虫虫派系列智能语音灯的语
音操控功能是核心亮点。

依托轻生活科技对于智能语音交互、物联网技术和云服务软件技术的
超强整合能力，推出了处于行业前沿的离线智能语音技术，即无需联网和下载手机App，只需
对着智能语音灯喊话就能与《虫虫派》中的动漫角色交谈，并按你的语音指令进行开/ 关灯、
亮度调节、延迟关灯、歌曲播放等的操作。

另外，经过超1W 条录音样本的检测调教，虫虫派系列智能语音灯的语音识别正确率高达
到95%，真正做到了让小朋友与智能语音灯沟通无阻碍、玩得更尽兴。

设计细节有更多人性化考量。

虫虫派系列智能语音灯造型婀娜，通体曲线优雅柔和，触感
温润不硌手，该设计还斩获了红帆工业设计大奖，小朋友可以放心使用。

此外，智能语音灯采用了寿命超过5W 小时的LED 灯，光线柔和，不伤眼睛，可调节光线
强弱来适应不同生活氛围对光线的要求，还可通过喊话自动设置5~20 分钟的熄灯时间，为了
不惊醒浅睡眠的小朋友，智能语音灯采用了渐进熄灯方式自然过渡到睡眠环境。

当小朋友困了或者睡眼惺忪，不想说话的时候，可以用手掌轻压宽檐帽来调节开关和亮度，也可以通过关闭智能语音灯底部语音交互按键，进入到手摸触控模式。

背景人工智能迎来第三次浪潮
人工智能（AI）是2016 年除了共享自行车（摩拜、OFO 等）外最火的投资主题了，特别
是自去年3月份阿尔法狗（AIphago）战胜韩国围棋高手李世石的世纪之战开始，很多投资者及创业者的目光都聚焦于人工智能，资本跑马圈地，创业BP（商业计划书）言必称AI+，不时冒
出机器学习、深度学习等炫酷概念，就像几年前的团购、O2O、P2P、共享经济的创投浪潮一样。

实际上，人工智能不是新鲜事物，这已经是人工智能的第三次高潮，第一波高潮是源于1956 年的达特茅斯会议，人工智能概念初出茅庐就得到各界的吹捧，然而，人工智能并不如人们所想象的那样乐观，1970 年左右，研究几乎停滞，热情消退。

上世纪80 年代，日本提出雄心勃勃的“人工智能电脑”计划，该计划随着1987 年Lisp
机器商业化的失败，AI 再次进入低迷期，人们意识到人工智能的问题不仅仅是硬件，更多的是软件及算法层面得不到突破。

第三次浪潮源于上世纪90 年代，由于摩尔定律所到来的产业变革，人工智能得到长足发展，代表性事件如1997 年IBM 的深蓝在国际象棋比赛中战胜世界冠军卡斯帕罗夫，Geoff Hinton 在2006 年发现了训练高层神经网络的有效算法，并且在2012 年的ImageNet 评测领
域大大突破了以前的算法。

深度学习算法的应用使得语音识别、图像识别取得长足进步，围绕
语音、图像、机器人、自动驾驶等人工智能技术的创新企业大量涌现。

长石资本LongCapital 合伙人袁皓认为，这次人工智能浪潮兴起的原因取决于几个关键变量：1、云计算。

云计算技术这些年已经发展成为大众化的服务平台，这为人工智能技术的实现和应用落地提供了强大的后台保障。

云计算技术降低了IT资源使用门槛，为数据集中化创造了基础，极大地促进了大数据产业的发展。

2、大数据。

大数据是智能的基础和土壤，没有数据就没有智能，所有的智能都是建立在数据的基础上。

近几年，移动互联网及物联网的普及使得大数据技术迅猛发展，从而也助推了人
工智能的长足进步，这是因为人工智能技术使用统计模型来进行数据的概率推算，只有把这些
模型经过大数据海洋中的不断优化或者“训练”，深度学习算法输出的结果才更加准确。

从市场规模来看，全球大数据总量仍不断扩大，2015 年数据总量达到8ZB(1ZB=1 万亿GB)，2020 年将达到44ZB，今后五年预计仍将维持141% 的年复合增长率。

3、GPU 及计算能力。

近几年计算能力的指数级增长、成本急剧下滑是人工智能得以迅速发展的前提，而GPU 的崛起则是重要突破点。

GPU 图像核心处理器是吴恩达团队于2009 年发现的，GPU 芯片相比于CPU 拥有更多的计算单元，GPU 实现了并行计算架构，可一次执行多个指令，从而可以迅速解决计算问题。

同时微软及Intel 也在力推FPGA（现场可编程逻辑门阵列），相对于GPU 来说，FPGA 在
峰值处理上较弱，但架构灵活性方面更为突出，尤其在处理小计算量大批次的运算时也更有效率，FPGA 主要来自一家名为Altera 的公司，由于错过GPU，Intel 不惜以167 亿美金的代价
豪赌将Alter 收入囊中。

4、深度学习算法。

2006 年Hinton 提出“深度学习”神经网络是人工智能的重大突破，
学术上对神经网络区分为DNN（深度神经网络），CNN（卷积神经网络）、RNN（递归神经网络），CNN 最初用来处理图像，RNN最早用来处理语音。

在实际应用中，CNN、RNN 等并不是独
立使用，需要与不同算法及策略相结合，AIphago 即是结合了增强深度学习和相关搜索的综合。

深度学习的发展大大加速了人工智能的发展。

5、人才。

AI 的爆发离不开顶尖的科学家，需要有能力部署人工智能技术并且使之产品化
的资深工程师，让我们先看看深度学习的四剑客；Geoff Hinton，多伦多大学的特聘教授，Google AI 团队领军人，Hinton是将BP 算法应用到神经网络与深度学习的主导者。

Yann LeCun，纽约大学终身教授，Facebook AI 实验室负责人，LeCun 最负盛名的是在CNN（卷积
神经网络）领域的杰出贡献。

YoushuaBenqio，蒙特利尔大学终身教授，CIFAR 项目负责人，Bengio 的主要贡献在于他对RNN领域研究的推动，现任ElonMusk 主导的Open AI 首席顾问。

Andrew Ng（吴恩达），斯坦福大学教授，曾就职于谷歌，现任百度首席科学家。

在线教育平台Coursera 的联合创始人，是人工智能和机器学习领域国际上最权威的学者之一。

人工智能的产业链一般分为“基础层- 技术层- 应用层”，基础层多为数据源、计算平台、芯片及传感器等人工智能运营的基础设施；数据工厂提供海量信息并通过数据挖掘及搜索算法
进行分类与关联，提供给机器学习，GPU 并行计算及高性能计算机芯片构成超级运算平台。

目
前基础层多为IBM、Intel、Google 等巨头公司的主战场。

技术层依托基础层的运算平台及数据源进行机器学习建模，开发面向不同领域的应用技术，包含感知智能和认知智能两个阶段。

感知智能包括语音识别、图形识别、生物识别及自然语言
处理等；认知智能主要是利用深度学习等类人脑进行预测、判定等，技术层有大量创业公司，
像视觉识别领域的Megvii、Sensetime、格灵深瞳、依图科技等，自然语言处理领域有云知声、思必驰等，其中语音识别是目前最为成熟的人工智能技术，目前全球排名靠前的有Nuance、Google、苹果，以及来自国内的科大讯飞和百度。

应用层主要基于基础层及技术层实现人工智能的各行业的场景化应用，诸如智能硬件、工
业及服务机器人、智能驾驶、智能医疗、智能客服、智能投顾、BI、个人助理等。

应用层因为
技术门槛较低，吸引到众多创业公司的涌入。

焦点人工智能在语音领域商业化应用提速
人工智能发展条件的成熟催生了大量人工智能创业企业。

据长石资本统计，截至2016 年
11 月，VentureScanner 将1485 家人工智能公司划分为13 个细分行业，包括深度学习/ 机器学习（通用）、深度学习/ 机器学习（应用）、自然语言处理、计算机视觉/ 图像识别（通用）、计算机视觉/图像识别（应用）、手势控制、虚拟私人助手、智能机器人、视频内容识别、内容感知计算、语音识别、推荐引擎、语音到语音翻译13 个细分行业。

其中深度/ 机器学习（应用）分类以约436家企业的数量遥遥领先，自然语言处理公司数量232 家位列第二。

AI 商业化前景看好。

据美国银行报告，到2020 年，人工智能可能形成700 亿美元规模的市场。

元大证券研报认为，2015 年至2020 年，中国AI行业预期年复合增长率达50%。

从融资情况来看，人工智能的资本投入仍保持每年42% 的增长，2016 年VC 投资也达到了创纪录的
25 亿美元。

随着人工智能技术的迅猛发展，智能语音、智能图像、自然语言处理等技术的成熟应用，
以及VC 资本助推的水涨船高，这或许预示着，一个人工智能投资及创业的黄金时代的到来。

目前，以科大讯飞、百度、阿里、腾讯、搜狗、网易为代表的中国企业正以语音为入口，
实现人工智能商业化应用。

科大讯飞在语音合成、语音识别、口语评测、自然语言处理等多项
技术上拥有国际领先的成果，已经在声音、输入、交流、电视、教育、汽车、机器人等七个领
域推进人工智能的实际应用。

2015 年，科大讯飞推出的讯飞听见产品，实时将语音转写成文字，速度和准确率远超人工速记，现场识别正确率达到99% 以上，标志着科大讯飞在业界率先实现了演讲和会议场景下的
语音转写技术突破。

2016 年，讯飞听见在实时中文语音转写的基础上，融合全新的多语种翻译技术，可以实时将中文演讲翻译成英语、维吾尔语、日语、韩语，并同步展示在大屏幕上。

这也是是全球首次
基于人工智能技术的实时机器多语种翻译技术在大型活动上的展示，准确率比肩同传翻译。

目前，此项技术已实际应用于上海高院。

而在汽车领域，科大讯飞推出了汽车智能车载系统——飞鱼助理。

通过接入多种内容渠道，飞鱼助理可以在复杂的行车环境中轻松进行通讯和导航操作。

目前，科大讯飞已与30 多个汽
车厂商建立了长期合作，并已在100 多款量产车型中搭载产品。

教育领域一直是科大讯飞技术
的重要应用领域。

据新东方董事长俞敏洪在其个人公众号上透露，新东方和科大讯飞共同投资成立了一家名
叫“东方讯飞”的公司，科大讯飞的智能语音、 AI 技术，加上新东方的教育资源，两家公司
将一起探索“教育+ 科技”新形式。

中国工程院院士、中国人工智能学会理事长李德毅看来，人工智能让我们生活得更加愉快。

“在人连网的时代，人工智能应该更多地关注交互认知，研究人与人，人与机器人，机器人与
机器人，或者混合的认知主体之间的交互认知。

”
赛富投资基金创始合伙人阎焱指出，现在做的车联网、机器人以及智能家居等等，语音交
互都成了第一入口。

更重要的是，国内研究语音交互的企业比如科大讯飞，不仅在语音语义，
甚至是后方大数据方面，某些领域都超过了国际大牌公司，这是非常了不起的。

“在语音领域，中国人工智能商业化应用率先提速。

”
启示未来将是人工智能美妙世界
在12 月23 日举行的“2016 中国信息产业经济年会”上，赛迪智库信息化中心的助理研
究员刘鹏宇发布了2017 年智能技术发展趋势，包括人脑仿生、机器学习、智能语音助手、机
器视觉、AR、区块链、数字孪生和人工智能等8 个领域，让现场观众“脑洞大开”。

人工智能
已不是好莱坞大片，正悄然来到我们身边。

AI 时代，中国与美国或将并驾齐驱。

创新工场创始人李开复在接受《华尔街日报》采访时表示，中国在AI 技术人才、工程教育和AI 应用市场领域的优势，将使中国成为AI 技术领导
者。

据公开数据，中国在AI 的两个核心领域“深度学习”和“深度神经网络”方面发表的论
文数量超过美国。

中国拥有世界领先的语音和视觉识别技术，正在成为人工智能的主要市场和
技术发源地之一。

就如何打造人工智能产业生态、促进人工智能产业有序发展的话题，刘庆峰表示，人工智
能的发展不会是一蹴而就的。

2016 年，科大讯飞牵头发布了中国人工智能《深圳宣言》，倡导人工智能产学研用各界联手共同推进中国人工智能产业发展。

刘庆峰指出，未来谁掌握了人工
智能产业的主导权，谁就将拥有全球话语权。

据此前发布的《乌镇指数：全球人工智能发展报告2016》显示，2015 年全球新增人工智
能企业数量806 家，平均每10.9 个小时就有一家人工智能企业诞生。

美国在人工智能行业占
据领先地位，但欧洲和中国的人工智能产业发展也在迎头赶上，“我们认为，中国制造2025
一定要跟人工智能匹配在一起。

”刘庆峰表示，改革开放30年，我们创造了经济上的奇迹，但在全球产业链上，我们仍处于价值链的底端。

未来30 年，如果我们抓住了人工智能产业机遇，将会在全球的价值链中有拥有更大的话语权和影响力。

中国移动通信集团公司副总裁李正茂则认为，“如果2016 作为人工智能的元年，2018 将
是奇点的开始。

”他表示，未来将是一种人工智能美妙世界。

目前，中国移动和科大讯飞有着
多方合作，比如在客服领域嵌入了科大讯飞的技术，未来希望与科大讯飞在更多领域深入合作。

根据业内预测，未来三年左右时间内，全球移动智能终端90% 以上将配备语音功能，可穿
戴设备、智能家居、企业级服务、汽车智能化等将成为智能语音的重要应用场景。

正是看到这
块巨大的“蛋糕”，科大讯飞试图打造基于语音为入口的生态链。

在科大讯飞市场部总经理任萍萍看来，未来语音必将成为人机交互、万物互联的基础，这
是科大讯飞现在的机会，也是科大讯飞有望触碰到的未来。

“未来我们要成为人工智能领域的
产业领导者，我们对未来的期待就是让机器能听会说，能理解会思考，用人工智能建设美好世界。

”。