声控自动化技术，让你动口不动手

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

声控⾃动化技术，让你动⼝不动⼿声控⾃动化技术，让你动⼝不动⼿
雷辉志
⼀艘由⽇本制造的新型⾃动化远洋货轮，正⾏驶在前往澳⼤利亚的航线上。

这艘货轮的外形并不特别，但它却有着过⼈之处——货轮的船长随⾝携带着⼀只⽆线话筒，⽆论在船上的哪个区域，只要他对着话筒发出操纵货轮航⾏的⼝令，船上的主控电脑就能接收信号并予以识别，然后由它发出相应的操作信号，⾃动操纵货轮航⾏。

以上情景就是靠近年来最新声控⾃动化技术实现的，这项技术随着近年来电脑技术、微电⼦技术的不断变⾰，正在突飞猛进。

在国际电⼦产品市场上，不断涌现出能“听”会“说”的新产品，使⽤者只需动⼝就能轻松操控它们，它们甚⾄还能和使⽤者沟通交流。

那么究竟这些新产品是怎么长出“⽿朵”和“嘴巴”的呢？
机器的“⽿朵”——语⾔识别器
声控技术的关键是要让机器能够听懂⼈的⼝令，这是⼀个⾮常复杂的过程，要想了解其中的奥秘，⾸先得谈谈⼈类的语⾔。

语⾔是⼀种波形复杂、变化多端的声波。

科学家利⽤⼀种叫做语图仪的专门仪器分析过⼈类语⾔的动态频谱，结果发现，每个语⾳的语图都是由⼏条“带⼦”组成的。

当然，语⾳不同，“带⼦”的形状也不同。

但只要说的是同⼀个字⾳，那么不管是谁发声，这⼏条“带⼦”的形状都会基本⼀致。

也就是说，每个语⾳中都含有某种不变的特质，⽽这个特质就是⼈的听觉将会感受到的核⼼因素，语⾔学家把它称为⼝腔共鸣的特征频率。

这些特征频率为科学家研发声控技术提供了便利——如果能够制造⼀种机器“⽿朵”，并在其中嵌⼊每个语⾳的特征频率的“样板”，那么当这只“⽿朵”听到⼈类的⼝令后，不就能将其分解成不同的语⾳，再同存储的“样板”进⾏⽐较核对，随后借助⾃动控制电路，最终实现按照⼝令完成各种动作了吗？
道理虽然简单，实际开发却并不容易，科研⼈员需要解决复杂的数学运算过程，同时克服⼀系列技术上的难题。

Siri是我们⽐较熟悉的声控技术应⽤。

随着科学技术的进步，电脑的问世让⼈类制造这样的机器“⽿朵”成为可能。

20世纪60年代，科学家开始在实验室⾥研究声控技术的核⼼——语⾔识别技术。

20世纪70年代末，微电脑的出现更是让声控技术实现了飞跃式发展——微电脑处理与存贮信息的神奇功能，以及它低廉的价格、⼩巧的体积，为声控技术⾛出实验室创造了必要条件，⼈们由此开启了实际应⽤声控技术的新时期。

产品的更新换代
20世纪70年代中期，美国出现了⼀种叫做“⼩先⽣”的电⼦玩具，它能向⼉童提出简单的算术题和拼读英⽂单词题,⽽⼉童则可以⽤说话来回答。

如果回答正确，屏幕上就会出现“Yes”的字样，同时发出赞许声；如果回答错误，屏幕上则会出现“No”，同时继续提问。

这种有趣的幼⼉学习⼯具⼀经推出，便⼤受欢迎。

随后，丰富多彩的具有声控功能的电⼦产品开始不断问世：声控电视机能根据使⽤者发出的⼝令，⾃动开关、选择电视频道、调节亮度与⾊度；声控打字机会按照⼈的⼝授，⾃动打字、断句、起⾏，还能⾃动阅读，让使⽤者⽅便校核；声控翻译器能把⼝述的简单语句，进⾏⾃动翻译，并将最终结果显⽰在屏幕上；声控电梯则可以让残障⼈⼠尽享便利，轻松操控电梯上下、开关……
如今，声控技术已经更加⼴泛地应⽤于各类电⼦产品上。

⽐如苹果⼿机⽤户⾮常熟悉的Siri，就是⼀种智能语⾳控制系统，它不仅可以⽀持⾃然语⾔输⼊，还可以调⽤系统⾃带的天⽓预报、⽇程安排、搜索资料等应⽤，更能够不断学习新的声⾳和语调，提供对话式的应答。

最近，在英国还出现了专门为丧失⽣活⾃理能⼒⼈⼠设计的声控房间，室内的⼀切器具都可以通过主⼈发令⽽⾃动运⾏。

房间内的声控装置只有⼀本笔记本⼤⼩，⽽且只能识别主⼈的指令，残障⼈⼠可以通过它轻松地开关门窗、启动家电。

在国外某些重要的通讯、交通或情报部门，声控技术还得到了更为实际的应⽤——⾃动预定车辆、分拣⾏李、查阅⽂献资料等等，不⼀⽽⾜。

⽬前，这些声控装置按照其识别语⾔的状况⼤致分为两类：⼀类是限定单词的语⾳识别声控装置，另⼀类则是⾮限定单词的语⾳识别声控装置。

第⼀类装置只能“听”懂规定范围内的单词⼝令，⼀般只有⼏百个，识别率在90%以上。

第⼆类装置能够“听”懂的单词数量在⼏千个左右，还可以识别复杂的语句，其中的技术⾃然也⽐第⼀类装置更先进。

让机器说话——语⾔合成器
利⽤声控⾃动化技术打造的机械宠物狗，已经成为很多孩⼦的新玩具。

时⾄今⽇，能够“听”懂⼈类语⾔的机器已经不是什么新玩意⼉了，现在机器装置的发展新趋势是借助“电⼦嘴巴”为机器增加“说”的功能，⽽“电⼦嘴巴”就是语⾔合成器。

微电⼦技术的迅猛发展，
已经可以把这种复杂的装置制造成微⼩的⼤规模集成电路，推⼴普及应⽤到各种声控装置中。

机器能够模仿⼈声发出合成语⾔的道理，恰恰是语⾔识别过程的逆转。

把合成语⾔频带的⼀系列不同频率的振荡电压，按照语图的形状组合起来，再经过扬声器放⾳，就是语⾔合成器的⼯作过程。

其实，这种⼈造语⾔技术远⽐机器识别语⾔技术要成熟得多。

早在1939年，在美国纽约世界博览会上就曾展出过⼀台形似钢琴的⼤型仪器，它就能模拟⼈声发⾳讲话。

这台最早的⼈⼯语⾔合成装置曾经轰动⼀时，但由于体积过于庞⼤，⼀直未能⾛向市场。

如今，语⾔合成器⽇臻成熟完善，体积也不断缩⼩，终于有机会来到你我⾝边。

机器合成语⾔的⽅法通常有三种，其中效果最好、效率最⾼的就是波形译码法。

这种⽅法是⽤极⾼的频率连续测定每个⾳节的声波波形，将测定结果变为⼆进位数码输⼊到电脑中，使⽤时只需将数码取出并经过适当组合，就能转换为电信号发出声⾳。

不过，这种⽅法每秒⼤约要处理5万个码，在单位时间内需要处理的信息量太⼤，因此只有超级计算机才能胜任。

第⼆种⽅法是⾳素合成法，它能把语⾳信息压缩到每秒100个数码，同时将声母⾳进⾏提取，按照顺序排列，配以⾳调发⽣器与滤波器，发出缓慢的、勉强可懂的⼈⼯合成语⾔。

但这种⽅法的准确度较低，只能在要求不⾼的场合使⽤。

第三种⽅法是当前⽐较流⾏的线性预测编码法，它是在⾳素合成法的基础上进⼀步完善⽽成的。

语⾔合成器除了作为声控装置的⼀部分得到应⽤外，还被制成了⽂字语⾔转换装置，⽐如为盲⼈量⾝打造的、能够“读书看报”的阅读机。

神奇的未来
最近，在美国新奥尔良市举⾏的⼀次电脑展览会上，出现了⼀款使⽤者能够通过⽇常⼝语直接向电脑提问，或是操控电脑的新程序，⼈们不必再像以往那样借助键盘或⿏标输⼊各类指令——传统使⽤电脑的⽅式发⽣了改变。

电脑固然可以代替⼈的部分脑⼒劳动，但是它要求⼈们必须为其编制好程序。

所以，编制程序才是⼈们掌握电脑的最⼤障碍，这也是正版软件价格可能超出电脑硬件价格的⼀个重要原因。

假如声控技术逐步完善，将来就有可能免除⼈⼯编制程序的繁琐过程——电脑将会按照⼝令⾃⾏编制⼯作程序。

事实上，这个美好的愿望很快就将实现，美国、⽇本和欧盟正在⼤⼒研发的第五代⼈⼯智能电脑，都将具有这类神奇功能。

⽬前来看，声控⾃动化技术还算不上尽善尽美，但相信⼤家都有更美好的期待。

如果要⽤⼀句诗词来形容这项技术，那便是“此时⽆声胜有声”，不对，应该是“此时有声胜⽆声”！
声控技术已经在汽车上得到应⽤。