浅谈说话人识别技术及应用分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浅谈说话人识别技术及应用分析
引言：随着科学技术的快速发展，生物特征识别技术得到了越来越多的研究和应用，
说话人识别是语音识别的一种。

它主要分为说话人辨认和说话人确认两个方面：前者是判断待识别语音是多个参考说话人中哪一个人所说，用于辨认说话者的身份，是一个多元判决问题；后者是说话人先声明身份(如输入用户号) ，然后由系统判定待识别语音是否与其参考声音相符，用于对特定人进行身份验证，是一个二元判决问题。

说话人识别技术的发展始于60 年代，随着信息社会化发展，说话人识别作为具有语音识别与理解功能的智能人机接口，是新一代计算机的重要组成部分，其应用领域不断扩大：在司法领域中，可以帮助对嫌疑人的查证；在保安领域中，可以用于机密场所的进入控制、合法使用通信线路、机要设备的身份核查及电子银行转帐业务的安全检查等；在医学领域，如使识别系统仅响应患者的命令，则可实现对假肢的控制；在玩具、家用电器等领域也有广泛的应用前景。

针对以上领域中的许多商用系统已经投入使用。

关键字：生物特征识别、系统判定、控制、应用前景
一、说话人识别技术基础
随着全球信息化的快速发展，电子商务等信息技术得到了广泛的应用，人们发现，传统的使用密码来认证用户的方法变的越来越脆弱。

在这种背景下，解决用户高安全性和长效稳定性的生物认证技术逐渐得到人们的青睐。

在众多的生物认证技术中，说话人识别技术以其信号采集简单、系统设备成本低等优点得到了快速发展，展现了广阔的应用前景。

说话人识别技术包括说话人辨认技术和说话人确认技术，他们在本质上是一致的，唯一不同的是说话人辨认技术是从多个说话人语音中辨认出某个人的那一段语音信息，而说话人确认技术是确定某段语音信息是不是某人所说。

两者是一对多和一对一的关系。

每个人的发音因为受到声道和发音特点等影响，总是存在一些代表自己特征的元素，说话人识别技术就是通过采集、提取这些表征说话人固有特征的参数来达到识别的目的。

语音识别技术的应用有着非常多的优点，同时目前的研究也存在一些还没有突破的难点，但我相信，不久的将来，说话人识别技术一定会在我国的信息安全方面起到无以替换的重要作用。

1 特征提取
特征提取就是提取语音信号中表征说话人的基本特征，此特征应能有效地区分不同的说话人，且对同一说话人的变化保持相对稳定。

提取的说话人的特征参数应满足相应的条件：对局外变量不敏感，如说话人的情绪的影响；能够长期地保持稳定；可以经常表现出来；易于对之进行测量，与其它特征不相关。

语音信号是一种携带着各种信息的非平稳的时变信号。

在说话人识别系统中，首先我们需要对语音信号进行分析，提取特征参数。

然后对语音信号进行预处理。

语音信号经过预处理过后，会产生很大的数据量。

在提取说话人特征时，就需要通过去除原来语音中的冗余信息来减小数据量。

说话人识别技术中的测试音和训练语音都只有在经过特征提取后才能与说话人模型进行比较、匹配和模型训练。

因此，特征提取是说话人识别技术中的关键步骤，其
好坏直接影响到整个系统的性能。

1.1 时域特征矢量
由于不稳定和表征语音特征较差，现在已应用很少。

通常是指将一帧语音信号中的各个时域采样直接构成一个矢量；如时域上的幅度（或能量）、平均过零率等。

1.2 变换域矢量
对一帧语音信号进行某种变换以后产生的相应矢量，如线性预测系数、LPC 倒谱系数、线谱对参数、共振峰率、短时谱等。

倒谱系数描述了人的声道特征，其中基于声道全极点模型的LPC 倒谱系数（LPCC）具有广泛的应用。

具有更好的识别性能的是基于符合人耳听觉的Mel 频率尺度提取出的倒谱系数MFCC 比LPCC 在去噪方面更出色。

近年来，应用更为广泛的是小波变换，他的分辨率可变、无平稳要求等优点。

2 识别模型
所谓的识别模型，是指用什么模型来描述说话人的语音特征在特征空间的分布。

对于说话人识别系统，特征参数被提取出来后，需要用识别模型为说话人建模，并对特征进行分类，以确定属于哪一个说话人。

下面分别简要介绍这几种分类模型。

2.1 矢量量化模型
矢量量化是将若干个幅度连续取值的时域采样信号分成一组，即构成矢量，然后用若干离散的数字值（或标号）来表示各种矢量。

用矢量量化模型识别说话人就是对某一说话人的特征矢量序列通过聚类算法可以聚为M类，求每类中所有矢量的均值就得到了每类的码本矢量，M个码本矢量构成了该说话人的矢量量化模型。

在识别过程中，将每一特征矢量到某一说话人的M个码本矢量的最小距离进行累加，累加和最小的说话人作为识别结果。

矢量量化模型分类特性较好，可以通过对长时语音特征参数统计信息的量化来区分说话人，还能压缩数据。

用它建立识别模型，在数据量、训练时间、识别响应等方面都具有很强的优势。

2.2 隐马尔可夫模型
马尔可夫链推广的隐马尔可夫模型(HMM)也是一种比较常用的模型。

在HMM模型中，观察到的事件与状态通过一组概率分布相联系，是一个双重随机过程，其中一个是马尔可夫链，它描述了状态之间的转移；另一个随机过程描述了状态和观察值之间的统计对应关系。

隐马尔可夫模型是HMM模型的隐含状态，可以观察到的是状态产生的观察值。

HMM模型的优点在于它既能用短时模型状态解决声学特性中相对稳定段的描述，又能用状态转移规律刻画平衡之间的时变过程，所以能统计地吸收发音的声学特性和时间上的变动。

这是80年代语音信号数字处理技术的一项重大进展。

HMM模型的缺点是分类能力比较弱，对噪声的鲁棒性较低。

在实际环境下基于HMM的说话人识别系统识别性能会显著降低。

2.3 高斯混合模型
高斯模型就是用高斯概率密度函数（正态分布曲线）精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。

描述说话人的个性是因为每一个说话人的语音特征在特征空间中形成特定分布。

高斯混合模型使用多个高斯分布的线性组合近似说话人的特征分布，将最能够产生测试语音特征的说话人分布模型所对应的说话人作为识别结果。

应用高斯混合模型训练时，每个人的语音可以分别建立一个模型，其目的本质上是估计模型参数的过程。

训练结束后，保留每个对应参数；识别时，将未知语音与每个
人的参数相结合，求出相对应的似然函数，其中对应最大似然函数的说话人被认为是识别结果。

二、说话人识别－声纹识别技术的应用
所谓声纹（voice print）是用电声学仪器显示的携带言语信息的声波频谱。

人的语言产生是人体语言中枢与发音器之间一个复杂的生理物理过程，身体在讲话时使用的器--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。

这种变异可以来自生理、病理、心理、模拟、伪装，也与环境干扰有关。

尽管如此，在一般情况下，声纹的鉴定仍能区别不同的人或法定是同一人的声音，从而可以进行个人身份识别。

从20世纪60年代开始，声纹识别技术被广泛的进行研究，并应用到了电话查询、电话交易、个人身份证明乃至侦察技术等诸多领域。

具体的说，声纹识别技术可以应用到以下领域：
1、在信息查询领域的应用：在传统的呼叫中心系统中，为了向用户提供个性化服务，并提高坐席的工作效率，在坐席的电脑端采用了"Screen Pop"技术。

电话拨打进入呼叫中心后，系统通过识别拨打者的电话号码来进行用户识别，并从数据库里调出该用户的个人及历史交易信息，从而能够提高人工坐席的工作效率并向用户提供更具有针对性的信息服务。

但通过电话号码来进行用户身份识别的缺陷是显而易见的，一方面同一个电话的呼入者未必是同一个人，另一方面某个信息查询用户可能会用不同的电话呼入。

而声纹识别技术就可以很好的解决上面的两个问题。

基于每个人的声音特征都是唯一而且几乎很少会发生变化的特性，可以很好通过声纹识别技术进行用户身份识别，从而提高呼叫中心的工作有效性，尤其在更加需要人性化服务的医疗、教育、投资、票务、旅游等应用方面，声纹识别显得尤其重要。

2、在电话交易方面的应用：在通过电话进行交易的系统中，如电话银行系统、商品电话交易系统、证券交易电话委托系统，交易系统的安全性是最重要的，也是系统设计者所要重点考虑的内容。

传统的电话交易系统采用"用户名密码"的控制机制，以确认用户的身份并确保交易的安全性。

然而这种控制机制有几个明显的缺点：
（一）是为了降低用户名以及密码被猜中的可能性，用户名和密码往往很长而难以记忆或者容易遗忘；
（二）是密码有可能被猜到，而且现有的电话系统中，如果没有专用的端加密设备，通过DTMF信号输入身份密码，很容易就可能被别人窃取；
( 三)是拨打者往往需要拨打很多数字才能完成身份验证并最终进入系统，给用户带来很大的麻烦；若在电话交易系统内采用声纹识别技术来进行交易者身份识别与确认，上面的问题就可以迎刃而解，用户的声纹是唯一的，可以通过简单的说几句交易系统指定的话进行身份确认，其好处是显而易见的：
提高了交易的安全性，大大降低了用户名和密码被猜中或者窃取的可能性；对交易系统
的用户来说，交易过程更加简单和人性化；若与电话自动语音识别技术相结合，通过语音下达交易指令，则更能提高交易的快捷性，缩短拨打用户的拨打时间，降低电话交易难度；
准确的用户身份识别，可以通过用户信息数据库和历史交易数据库，为提供真正的One-to-One 个性服务打下基础；降低交易系统费用：降低坐席的干涉时间，提高效率；由于缩短了拨打用户的拨打时间，从而会减少IVR硬件系统的通道需求数量。

降低欺诈的可能性：商家可以根据有关的声纹识别技术，判断这些信息的可信度如何，并据此决定是否送货等，并可从数据库内查看拨打者的信用状况，由此可以大大地提高电话订购商品的效率，推动"电话商务"的发展。

(3) 在PC以及手持式设备上面的应用：在PC机及手持式设备上，也需要进行用户身份的识别，从而允许或拒绝用户登陆电脑或者使用某些资源，或者进入特定用户的使用界面。

同样采用传统的用户名加密码的保护机制，存在着用户名和密码泄密、被窃取、容易遗忘等问题。

声纹识别技术应用到PC以及手持式设备上面，可以无须记忆密码，保护个人信息安全，大大提高系统的安全性，方便用户使用。

如在MacOS 9操作系统中就增加了V oiceprint pa ssword的功能。

用户不需要通过键盘输入用户名和密码，只需要对着电脑说一句话就可以进行登陆。

(4) 在保安系统以及证件防伪中的应用：声纹识别系统可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡，在卡上事先存储了持卡者的声音特征码。

在需要时，持卡者只要将卡插入专用机的插口上，通过一个传声器读出事先已储存的暗码，同时仪器接收持卡者发出的声音，然后进行分析比较，从而完成身份确认。

同样可以把含有某人声纹特征的芯片嵌入到证件之中，通过上面所述的过程完成证件防伪。

(5) 与二维条码技术相结合的防伪应用：
PDF417二维条码是一种高密度、高信息含量的便携式数据文件，PDF417二维条码及其系统的开发应用范围极广，在国外已广泛应用在国防、公安、交通运输、医疗保健、工业、商业、金融、海关及管理等领域。

其典型优点如下：
可容纳约1,000个汉字信息，比普通条码信息容量高几十倍可将照片、指纹、掌纹、声音、签字、文字等凡可数字化的信息进行编码纠错能力强，破损面积不超过50%，可照常恢复全部信息误码率不超过千万分之一，可靠性极高容易制作且成本低廉。

利用现有的点阵、激光、喷墨、热敏/热转印、制卡机等打印技术，即可在纸张、PVC、甚至金属表面上印出PDF417二维条码采用声纹识别的方法对重要的证件、文件、单据进行防伪，在其上需要一载体记载声纹信息，若采用芯片的方式，则芯片和证件文件的紧密结合不易实现，并且芯片造价过高。

从可行性上考虑，证件文件的声纹防伪需要选择一种可以和证件、文件紧密结合的声纹记载方法。

综合考虑，二维条码不失为一种理想办法。

它的高信息容量可以容纳下特定人的声纹信息，而且可以很好的与证件文件等纸质结合。

在需要进行证件确认的时候，通过二维条码识别出用户的声纹特征并输入到声纹确认仪器中，同时与持证人的声音进行对比，从而完成证件和身份确认。

声纹二维条码技术也可以应用到人类生活的很多领域，例如物流配送方面，在提取货物时、订货到达时可以通过声纹的二维条码技术来确认提货人或者购物者的身份，从而大大降低冒领、拒领等现象的发生，提高物流运行效率，促进电子商务和电话商务的发展。

科大讯飞在声纹研究方面已经有很长时间的积累，作为中国语音产业的领导者和中文语音技术创业联盟的领导者，它凭借自己在语音技术研究方面的深厚实力，在和中科院、社科院以及中国科技大学的联合实验室的基础上，不断推进声纹识别技术的研究和应用，为该技术的产业化做着不懈的努力！
三、结束语
说话人识别发展至今,尽管已经取得了不错的进展,与此同时寻找更加先进的研究方法仍然有相当艰巨的路要走。

因此,说话人识别技术的发展依然面临较多的挑战,需要人们在这方面进行长期坚持不懈的探索。

与文本无关的说话人识别是语音信号研究的一个焦点。

文本有关和文本提示的说话人识别在特征提取和模型建立等方面相对研究已比较成熟，而与文本无关相对要困难得多。

随着产品的不断投入使用，其发展也会不断更新，暴露出优缺点，促进其更好的应用，让用户来检验其真正的使用意义。