声纹识别的关键技术及发展趋势
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
声纹识别的关键技术及发展趋势
作者:张广兰
来源:《中国新技术新产品》2009年第08期
摘要:本文介绍了声纹识别技术的基本原理及其关键技术,通过对特征参数的提取及声纹识别技术中核心技术的阐述,并主要以两种常用的LLPC和MFCC特征参数的提取方式为基础,阐述了其关键技术的形成及其发展,并对声纹识别技术的发展趋势作了科学的预测。
关键词:声纹;生物识别;特征参数
0 引言
随着信息技术和网络通信的发展,信息安全成为全球最为热门的研究领域之一。身份鉴别是信息安全的重要组成部分,它涉及了我们生活的每个领域。基于传统密码识别的身份识别技术在实际信息网络应用中已经暴露出许多不足之处,而基于生物特征辨别的身份识别技术近年来日益成熟并在实际应用中展现出极大的优越性。声纹是指用电声学仪器显示的携带言语信息的声波频谱。由于每个人的发音器官不同,声纹也各不相同。通过提取声纹中的特征来识别身份技术正蓬勃的发展起来。
1声纹识别技术简介
声纹是指用电声学仪器显示的携带言语信息的声波频谱。声纹识别(Voiceprint Recognition,VpR),即说话人识别(Speaker Recognition)是根据获取声音波形中反映说话人生理、心理和行为特征的特征参数来自动识别说话人身份的技术。它主要是通过对说话人语音信号的分析和提取,自动确定说话人是否在所登记的集合中,以及说话的人是谁的过程。它与语音识别的区别在于声纹识别并不在意语音信号中的语义内容,而是从语音信号中提取出个人特征,即包含在语音信号中的个性因素。声纹识别可以分为:声纹辨认(Voiceprint Identification)和声纹确认(Voiceprint Verification)。前者是从已知的一群人中识别出其中的某个人,需要使用n个模板,从中辨识出待识别的语音是n个人中的哪一个。后者是判断声纹是否是指定的某人,只需使用一个特定的模板与待识别语音进行匹配,进而做出“是”或“不是”的判决。
2声纹识别的发展和现状
在实际应用中,2004年美国最大的银行自动出纳机制造商 NCR分部,开始试验自动出纳机的声纹核实效果。同年5月美国加利福尼亚州Beepcard公司发明了一种带有特殊安全功能的信用卡,这种信用卡只有在识别出主人的声音后确认身份后才能正常操作。欧洲在声纹识别的应用在全球也处于领先阶段,1998年欧洲电信联盟也开始应用声纹识别技术在电信与金融结合领域,完成了cAvE计划。由于声纹识别技术在金融领域的应用,使得减少了因信用卡欺诈导致的商家和消费者的交易成本。
声纹识别技术的应用范围很广泛,声纹辨认领域有:刑侦破案、罪犯、跟踪、国防监听、个性化应用等等;声纹确认领域有:证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。
声纹识别技术具体应用如下:
声纹加密锁。声纹加密锁是国内首创的 USB 接口的新型电脑安全产品,是对电脑系统进行加密、保护的数据安全系统。它对文件的加密、解密操作及其简便。应用了声纹识别技术,声纹加密锁插入电脑USB 接口后,用户只需对着话筒口述命令,即能马上验明用户身份,让合法用户进入而拒绝非法用户的使用,使用户不怕密码泄漏。
公安技侦/刑侦领域的声纹身份辨认系统。目前应用在这个领域的声纹识别技术比较广泛。与文本无关的声纹身份辨认系统,能通过电话采集的语音进行自动的身份辨认,对于各种电话勒索、绑架、追逃等案件,帮助对嫌疑人进行查证或监控嫌疑人的电话等,提供高性能价格比的应用方案,为公安的技侦和刑侦部门节省大量的警力,并大大提高监听的效率和破案的成功率。
反恐和国防安全中的声纹辨认系统。声纹辨认技术可以察觉电话交谈过程中是否有关键声纹出现,继而对交谈的内容进行跟踪(战场环境监听);在美国调查 911事件、阿富汗战争,以及伊拉克战争中,就多次使用声纹身份鉴别系统。声纹身份鉴别系统安装在战斗机上,可以准确识别出敌方飞行员身份,使飞行员做出正确的应对策略。在国外,尤其是美国,早已将声纹信息管理系统应用到军事、情报、国家安全等重要部门。
我国在这一领域的研究刚刚起步。中国科学院自动化所成功推出了PATTEK SV声纹识别产品,是目前国内推出的同类产品中最优秀的产品之一。同时,中国科学院自动化所研制的电话身份识别系统集成了基于声纹的身份识别技术和语音识别技术。
3声纹识别的关键技术
为提升高频部分,滤除低频干扰,使信号的频谱变的平坦,首先要对采集的语音信号进行预加重。进行完预处理的语音信号,需对声纹信号进行端点检测。声纹识别本质上就是对个性的识别,特征提取是声纹识别技术中最为重要的部分。
3.1特征提取
特征的选取关系着识别的效果。常用于特征提取的有LPCC,MFCC。
3.1.1线性预测倒谱系数(LPCC)
按着上式可直接从预测系数求得倒谱,因为这个倒谱是根据线性预测模型得到的,所以称为LPCC。
3.1.2Mel频率倒谱参数(MFCC)
Mel频率倒谱参数(MFCC)是把人耳的听觉感知特性和语言的产生机理结合起来提取的一种声纹特征。是建立在人耳对声音频率的非线性感知基础上的,人耳对声音感知的灵敏度随着频率的变化而变化,对低频声音比高频声音敏感。人在嘈杂的环境中仍能分辨出各种声音,人的耳蜗发挥着重要作用。耳蜗其实充当着一个滤波器组的作用,它的滤波作用是在对数频率尺度上进行的,在1000Hz以下为线性尺度,1000Hz以上为对数尺度,因此,人耳对低频信号比高频信号更敏感。
Mel频率可用下面的公式表示:
fMel=2595×log(1+f/700)
根据上式把频率变换到Mel域后,Mel带通滤波器组的中心频率就按着Mel频率刻度均匀排列的。
3.2识别算法
目前针对各种特征而提出的模式匹配方法的研究有很多。这些方法大体可归为下述几类:概率统计方法;动态时间规整方法;矢量量化方法;隐马尔可夫模型方法等。