鼎铭可编程交换机在ASR系统中的应用解决方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
鼎铭可编程交换机在ASR系统中的应用解决方案
一、 ASR业务介绍
ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。
语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。
现在ASR技术主要被用于社会信息服务、PC、手机、车载、玩具五个领域,给人们的生产和生活带来了极大的方便。
本主要讨论ASR技术在CTI行业的应用情况。
基本上,语音识别是“计算机能明了人类说话的语句或命令,而做出相对的反应”。
换言之,如果计算机配置有“语音识别”的程序,当声音通过一个转换装置输入计算机内部、并以数位方式储存后,语音识别程序便开始以你输入的声音样本与事先储存好的声音样本进行对比工作。
声音对比工作完成之后,计算机就会算出数个最匹配、接近的声音样本序号,就可以知道刚才输入的声音是什么意义,进而执行此命令。
语音技术的采用,可以突破话机数字键盘的局限,降低录音和坐席成本,实现真正的自助服务。
语音识别技术可以解放用户的双手,在开车时、走路时、工作忙碌时,免去按键的不便和繁琐,只要说出需求,一切就可以轻松搞定。
正是由于这些优点,语音技术已经成为西方发达国家通信增值业务中的一个亮点。
二、 ASR在CTI的应用中的构架
目前,在一些行业的CTI系统应用中,为了适应某种特殊应用,或者使应用更方便、更智能,我们经常把ASR 作为一个功能模块加载到CTI系统之中。
通过ASR功能,可以使用户的操作更加简单,使单个用户的使用时间缩短,提高系统使用率和客户满意度。
ASR服务器的核心是语音识别引擎库,语音识别引擎库由专业语音识别厂商提供。
目前常见的IVR系统大都是通用的工控机平台上插入语音板卡组成,部分系统支持中文语音识别ASR技术。
下图为带有ASR功能的CTI系统构架图:
带有ASR的IVR系统构架
一个典型的包含ASR服务的电话服务流程可分为:
(1)用户电话拨入,系统IVR响应,并提示用户说出相关语音信息。
(2)IVR系统采集用户的语音信息,并形成于语音样本,把此语音样本送向ASR服务器
(3)ASR服务器将送来的语音样本和服务器内存储的语音样本进行对照分析,并进行匹配。
(4)ASR服务器计算和分析出同采集来的语音样本最匹配的原始语音样本,并调出与该原始语音样本相对应的执行命令信息,将该执行命令信息通过TCP通讯网络送向数据库服务器。
(5)数据库服务器接收到执行命令信息后,数据库服务器调出相应的文件数据,通过TCP通讯接口将该数据发送给IVR服务器。
(6)IVR服务器把数据组装成为独立的语音文件。
(7)IVR服务器播放相应的语音文件给电话用户。
具有ASR功能的电话智能转接系统,一般具有一些下列服务流程:
(1)用户电话拨入,系统IVR响应,并提示用户说出相关语音信息。
(2)IVR系统采集用户的语音信息,并形成于语音样本,把此语音样本送向ASR服务器。
(3)ASR服务器计算和分析出同采集来的语音样本最匹配的原始语音样本,并调出与该原始语音样本相对应的执行命令信息,将该执行命令信息通过TCP通讯网络送向IVR服务器。
(4)IVR服务器将该执行命令信息转换成相应的执行命令,进行二次拨号(可能是内线也可能是外线)。
(5)振铃端用户摘机,双方进行通话。
一些系统综合上面两种服务流程,更全面的利用ASR所带来的智能性和方便性对用户进行服务。
一般的公网接入(IVR)大都采用“工控机+语音板卡”,而采集的语音样本则通过局域网传给ASR服务器。
这种结构只适用于简单的应用场合。
如果用这种方式去组建较大的系统,则会存在诸多问题:
(一)两个瓶颈
1、接入瓶颈:
单台工控机的接入容量一般不超过8E1为宜。
除了运行应用程序外,它还要控制两个实时端口:实时地通过局域网发送采集到的语音样本,并要实时地将采集到的语音数据通过由语音卡通过PCI(或ISA)总线传递给工控机,如下图所示。
工控机
通过局域网传递语音数据本来就不能保证其时实时性,其结果就是用户听到的语音经常断续,保证不了语音质量。
如果传递的语音数据是经过压缩的,语音数据本来就是通过TTS进行合成的,再经过压缩,则音质会有很大的损伤,因此同样保证不了语音质量。
从上图中我们可以看到,经TTS合成的语音数据从局域网经过网卡,再通过主板PCI(或ISA)总线进入语音卡,最后进入电信网,同样语音数据通过计算机主板经PCI(或ISA)总线进入语音卡也要求是实时的。
这两种实时性的要求会导致在接入量比较大的情况下,会给计算机的总线造成很大的负担。
因为总线的带宽(数据吞吐量)是有限的。
况且其它的板卡和接口(如声卡、显示卡等)也要直接或间接地占用总线。
因此在接入量比较大的情况下,计算机的总线带宽会成为一个比较关键的瓶颈。
即便提高语音板卡的接入能力。
在有大量电话接入的情况下,由于语音数据实时性的要求,也不能保证语音质量。
2、I/O插槽和语音板卡容量的限制:
目前计算机的I/O插槽,特别是PCI插槽有限,不可能插入大量的语音板卡,再加上语音板卡的容量不会太高,因此单台计算机的接入能力相对较小。
要组建比较大的系统,就必须采用多台计算机接入,这就必然会引入机间交换的问题。
用语音板卡和多台机器构建大中型CTI系统时,机器间要通过电缆连接才能使系统同步运行,但交换用的时钟同步信号和数据信号的频率很高,极易受到外界干扰,造成系统的不稳定。
(二)系统复杂度的限制
基于语音板卡构建较大规模的应用系统时,除了系统稳定性的因素外,还要考虑系统的复杂度。
对一个应用系统来说,除上面提到的因素外,复杂度本身就是影响系统稳定性的要素之一。
除此之外,系统复杂度的增加,会使系统的灵活性和可维性降低,从而导致系统未来维护、升级的成本和难度大大增加。
(三)开发成本的考虑
很大一部分系统集成商,对硬件设备的一次购入成本考虑地较多,而开发方面的成本往往容易忽略。
随着人力成本的日益凸显,使得一个应用系统的开发成本越来越不容忽视。
系统的开发如同搭积木,系统规模较小,用小积木搭建会更经济一些。
而用小积木构建大系统会使积木块的数量增加,而这些积木块又要协同工作,因而对开发人员能力和经验的要求会增加,同时系统开发周期也会加长,而系统的维护难度也随之增加。
这些因素都会导致在一个系统的生命周期内,其综合运行成本的增加。
三、 鼎铭交换机在ASR 业务中的应用
深圳市鼎铭电子技术有限公司推出的基于分布式构架的具有高速数据传输性能的可编程交换机,给CTI 应用带来了革命性的变化,独有的分布式传输构架使其交换机的整体性能和目前国内外同类可编程交换机比较,有了根本上的超越。
鼎铭高速数据传输板置于其可编程交换机内,外部可以和多台PC 或工控机相连,通过可编程交换机的级联使得和外部连接的PC 或工控机没有特别限制。
这样可编程交换机的内部I/O 总线(类比于PC 机的PCI 或ISA 总线)就不再传输实时数据(如语音数据),而只负责非实时性的管理和信令数据,语音或其它实时数据从外部PC 直接传入可编程交换机的高速数据传输板,然后通过交换直接进入外部公共电信网(PSTN )。
而对于需要录音的语音或其它实时数据则从外部公共电信网(PSTN )通过可编程交换机内部的交换直接进入高速数据传输板,再输出到外部PC 或工控机。
这就解决了上面提到的实时语音数据的传输瓶颈问题。
而可编程交换机本身的优势就在于它的高密度接入,对可编程交换机而言就不存在接入瓶颈问题。
除了解决上述两个瓶颈问题,我们再来看看这种结构的交换机带来的其它优势:
首先,在解决实时数据瓶颈问题的同时,因为实时数据不再通过内部的I/O 总线,从而减轻了I/O 总线负担,同时CPU 的负担也大大减轻了,而和高速数据板连接的外部PC 所运行的应用程序也单一化了(如录音/放音、TTS 、ASR 等),而且具有了很强的可复制性。
从而使基于可编程交换机构建的应用系统的复杂度大大降低,稳定性和可靠性大大提高,从而在很大程度地降低了系统的开发成本和运行维护成本。
另外,可编程交换机的专有电源系统也使系统稳定性和可靠性大大加强。
数据终端机1
数据终端机2
数据终端机n
......
USB2.0
USB2.0
USB2.0
鼎铭可编程语音交换机
TCP/IP
TCP/IP
TCP/IP
TCP/IP
局域网
PSTN/PLMN
基于鼎铭可编程交换机结构构成的
分布式高速数据传输系统
鼎铭可编程交换机的这种构架,使整个交换机平台具备了很强的开放性,捆绑独立的第三方产品(如TTS 、ASR 等)非常方便,第三方产品只须改向一下输出管道就可以了,产品本身无需作任何改动,因此更好地实现了第三方产品的价值,同时又降低了最终客户的系统构建成本。
正是因为鼎铭可编程交换机从技术上突破了高速实时数据传输的瓶颈问题,真正意义上实现了分布式的客户机/服务器体系结构,所以也特别适合构建大容量的彩话系统、彩铃系统、电话QQ 等电信增值系统,以及大容量的录放音系统、TTS 、ASR 等应用系统。
下图示意了基于鼎铭可编程交换机构建的大容量TTS IVR 系统。
TTS服务的电话服务流程变为: (1) 用户电话拨入,接入系统(IVR)响应,获得用户按键等信息。
(2) IVR根据用户的按键信息,向数据库服务器申请相关数据。
(3) 数据库服务器返回文本数据给IVR。
(4) IVR通过局域网,将需要合成的文本信息发送给TTS服务器。
(5) TTS服务器将用户文本合成的语音数据直接输出到可编程交换机的高速数据传输板。
(6) 高速数据传输板再将语音数据变成串行数据输出到交换总线(无需CPU 干预)。
(7) 交换总线的语音数据通过接入端口进入公用电话网或公用数据网,电话用户听取相关语音。
ASR SERVER 1
.
.....
USB2.0
USB2.0
USB2.0
鼎铭可编程语音交换机
TCP/IP
TCP/IP
TCP/IP
TCP/IP
局域网
PSTN/PLMN
基于鼎铭可编程交换机的ASR 系统解决方案
ASR SERVER 2
ASR SERVER n
座席 1
… …
座席 2
座席 n
HUB
DATA SERVER 1DATA SERVER 2DATA SERVER 3… …
DATA SERVER n
四、 ASR 在CTI 行业中的应用
随着ASR 技术的逐渐成熟,ASR 在CTI 行业也得到了广泛的应用,下面介绍几个典型的业的业务应用:
(一) 社会公共信息服务
随着社会信息的日益发达,人们对社会公共信息需求的时效性和方便性提出了更高的要求,以往的用户通过电话呼入进行信息查询时,通常要进行繁琐的电话按键等交互式动作才能够查询到相关信息,但是如果遇到复杂的系统,像天气预报、火车(飞机)班次查询等业务,通常用户无法记得住这些复杂的操作流程,最后只得转向座席,通过人工服务进行查询,这样势必增加座席人员的工作量,而系统利用率并没有提高,由于一般系统座席量有限,
如果遇到业务高峰,那么将有很多的用户由于查询的复杂性无法得到满意的服务,导致用户的满意度大大降低,同时座席人员的抱怨也会大大增加。
如果在这些CTI系统中运用了ASR技术,那么将会解决上面所遇到的问题,如果用户想查询天气情况、火车(飞机)班次信息,那么它只需在系统的引导下说出所要查询信息的时间、地点等信息,系统经过内部处理即可向用户报出相关查询结果信息,这样,既增加了系统的利用率,也增加了客户的满意度,也节省了用户的查询时间。
可见,加载了ASR功能的CTI系统功能变得越来越强大,是我们的生活也越来越放方便快捷。
(二)电信增值领域
经过十多年的建设,目前国内的基础电信业务已经比较成熟,但是成熟的网络设备并没有给运营商带来较高的收益,近年来,为了寻找新的利润增长点,运营商大力扶持发展语音增值业务,由于这种难得的机遇,IVR业务在电信增值领域也获得了前所未有的发展,目前大家所熟悉的电话点歌业务、语音聊天业务、一号通业务、语音号薄等都属于IVR业务的范畴,虽然平台技术越来越成熟、越来越先进,但是频繁和复杂的按键操作还是给用户带来了很大的麻烦,如果系统中使用的ASR的功能,以前遇到的那些问题也迎刃而解:
1、语音点歌业务
目前大多数电话机和手机的操作键盘都只有0-9十个数字键和*号和#号两个符号键,因此在设计导航菜单的时候很受限制。
在点歌节目中,用这些数字键来指定上千上万首歌曲是非常不方便的。
以前多采用的方法有两种:一是预先给用户发送歌曲手册,上面可以查到每首歌曲的代号。
这种方式的缺点是实时性差,不能随时更新歌曲库。
另外印刷宣传资料带来的人力和成本也不容忽视;另一种方法是将歌曲根据歌手、主题进行分类,比如下图所列的结构:
这种点歌方式虽然不必预先给目标用户发放歌曲手册,但歌手和歌曲的数量受电话、手机键盘上数字按键的限制,容量非常有限。
歌曲的有限和陈旧又会影响用户参与的兴趣和积极性。
并且曲库里的歌曲名称全部需要预先进行录音,管理和维护较为复杂。
引入ASR语音识别技术以后,用户只要说出歌手名、歌曲,系统进行相关判断和操作实现快速点歌功能。
语音
识别技术的应用,带来了自动语音服务的革命,彻底改变传统的按键操作,提供人性化的语音交互界面,使操作变得更简单,同时业务功能也更强大,实现歌曲的快速定位。
2、 语音电话本业务
语音电话本,顾名思义,就是用户打电话时不用在电话或手机上输入被呼叫方的电话号码,而是通过自然语言说出对象姓名或信息,系统自动呼叫并接通。
用户只要利用网页等方式添加联系人的姓名、昵称、电话号码、email 地址等信息,这些信息都可以利用语音合成转换成语音供电话查询。
语音电话本呼叫流程示意图
信息查询
个人设置
这样的服务能很好满足用户拥有一个"永不丢失,快速接通的个人语音电话本 "的电话本的需求。
待到用户的联系人信息全部保存在服务器上,想来他也不再会考虑更换运营商了。
具备这一有黏度的增值服务,运营商不仅可以开拓新的收益来源,还能大幅度提高用户忠诚度。
以下就是美国第四大运营商Sprint 运营语音电话本的业绩:业务开通10个月之内,有超过140万的用户申请服务;27周收回投资;每个用户可设定500个联系人,每个联系人可以有5个不同号码。
香港PCCW 开通的语音电话本打出"数据保全 - 永不丢失的个人通讯录"的广告语,3天内就获得25,000 注册用户的较好业绩,11天达到135,000 用户,2003年年底向60万用户迈进。
并有传闻这个新业务的杰出表现甚至导致PCCW 竞争对手不得不忍痛降价以挽留老客户。
3、 彩(炫)铃语音定制系统
自2003年5月份上海移动推出彩铃业务以来,彩铃业务在国内得到了大力的推广,目前已经成为手机用户非常欢迎的一种个性化业务,彩铃业务也成为这两年移动运营商重点推广的一种增值业务,所以彩铃业务也给运营商带来了巨大的收益。
虽然彩铃业务非常受广大用户的欢迎,但是彩铃业务的定制程序并没有那么简单,据统计,目前的彩铃定制业务中,有30%是通过因特网和WAP 网完成的,而有70%是通过拨打声讯电话来完成的,这70%的业务中,有部分用户是因为不会上网,而有部分用户是因为在定制彩铃时缺乏上网条件。
而用户通过声讯电话来定制彩铃的不方便是可以想象的。
以某省移动为例:
第一步:手机用户拨打12530,系统语音提示:最新活动专区请按1,选择彩铃请按2,我的彩铃管理请按3……
第二步:按2进入选择彩铃,系统语音提示:最新推荐请按1,每周排行请2……
第三步:按1或2,听完所有提示,没有喜欢的铃声,挂机。
以上三步除了浪费用户的时间外,还需要用户支付4角每分钟的信息费。
如此简单粗糙的服务,势必会打击部分用户更换彩铃的积极性,如果在原有系统的基础上加上ASR语音识别功能,则可以将系统菜单修改如下:
第一步:手机用户拨打12530,系统语音提示:最新活动专区请按1,选择彩铃请按2,我的彩铃管理请按3……
第二步:按2进入选择彩铃,系统语音提示:按键输入请按1,语音输入请按2……
第三步:按2,系统提示:请说歌手名字请说歌曲名称。
第四步:系统确认:您选择的是周杰伦的七里香,确认请挂机,重新选择请按*号键。
第五步:挂机。
应用了ASR语音识别功能的彩(炫)铃语音定制系统,将能大大减少使用IVR系统定制彩铃流程的复杂性,提高用户使用彩铃系统的积极性,也将大大提高运营商的彩铃业务收益。
以上为ASR功能在电信增值领域的三个典型业务应用,ASR功能在电信增值领域还有很多应用点,原理与以上三种业务基本相同。
(三)企业应用
ASR在企业内的应用主要以声控智能总机、个人电话秘书等业务为主。
声控智能总机系统是指将ASR技术应用于企业电话服务领域, 可以提供电话自动转接服务。
它可以取代人工接线员。
当用户拨打电话到该系统, 在听到简短的提示音之后说出所要找的人名, 该系统就会用语音识别技术识别出用户想要找的人,将电话转接到相应的电话分机。
它特别适合于装有集团电话的公司或单位。
声控智能总机使客户不用烦恼查找或记忆许多分机号码,也无须在总机人员忙线时苦苦等待,运用最人性化又亲切的语音接口服务客户,如同拥有多位总机人员,不论在午休或下班时段,全天24小时不间断又亲切地服务企业的客户来电,既不会错失商机又可提升客服质量与企业形象。
声控智能总机呼叫流程示意图如下:
声控智能总机流程示意图
用户A。