浅谈说话人识别技术及应用分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈说话人识别技术及应用分析
引言:随着科学技术的快速发展,生物特征识别技术得到了越来越多的研究和应用,
说话人识别是语音识别的一种。它主要分为说话人辨认和说话人确认两个方面:前者是判断待识别语音是多个参考说话人中哪一个人所说,用于辨认说话者的身份,是一个多元判决问题;后者是说话人先声明身份(如输入用户号) ,然后由系统判定待识别语音是否与其参考声音相符,用于对特定人进行身份验证,是一个二元判决问题。说话人识别技术的发展始于60 年代,随着信息社会化发展,说话人识别作为具有语音识别与理解功能的智能人机接口,是新一代计算机的重要组成部分,其应用领域不断扩大:在司法领域中,可以帮助对嫌疑人的查证;在保安领域中,可以用于机密场所的进入控制、合法使用通信线路、机要设备的身份核查及电子银行转帐业务的安全检查等;在医学领域,如使识别系统仅响应患者的命令,则可实现对假肢的控制;在玩具、家用电器等领域也有广泛的应用前景。针对以上领域中的许多商用系统已经投入使用。
关键字:生物特征识别、系统判定、控制、应用前景
一、说话人识别技术基础
随着全球信息化的快速发展,电子商务等信息技术得到了广泛的应用,人们发现,传统的使用密码来认证用户的方法变的越来越脆弱。在这种背景下,解决用户高安全性和长效稳定性的生物认证技术逐渐得到人们的青睐。在众多的生物认证技术中,说话人识别技术以其信号采集简单、系统设备成本低等优点得到了快速发展,展现了广阔的应用前景。
说话人识别技术包括说话人辨认技术和说话人确认技术,他们在本质上是一致的,唯一不同的是说话人辨认技术是从多个说话人语音中辨认出某个人的那一段语音信息,而说话人确认技术是确定某段语音信息是不是某人所说。两者是一对多和一对一的关系。每个人的发音因为受到声道和发音特点等影响,总是存在一些代表自己特征的元素,说话人识别技术就是通过采集、提取这些表征说话人固有特征的参数来达到识别的目的。语音识别技术的应用有着非常多的优点,同时目前的研究也存在一些还没有突破的难点,但我相信,不久的将来,说话人识别技术一定会在我国的信息安全方面起到无以替换的重要作用。
1 特征提取
特征提取就是提取语音信号中表征说话人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。提取的说话人的特征参数应满足相应的条件:对局外变量不敏感,如说话人的情绪的影响;能够长期地保持稳定;可以经常表现出来;易于对之进行测量,与其它特征不相关。
语音信号是一种携带着各种信息的非平稳的时变信号。在说话人识别系统中,首先我们需要对语音信号进行分析,提取特征参数。然后对语音信号进行预处理。语音信号经过预处理过后,会产生很大的数据量。在提取说话人特征时,就需要通过去除原来语音中的冗余信息来减小数据量。说话人识别技术中的测试音和训练语音都只有在经过特征提取后才能与说话人模型进行比较、匹配和模型训练。因此,特征提取是说话人识别技术中的关键步骤,其
好坏直接影响到整个系统的性能。
1.1 时域特征矢量
由于不稳定和表征语音特征较差,现在已应用很少。通常是指将一帧语音信号中的各个时域采样直接构成一个矢量;如时域上的幅度(或能量)、平均过零率等。
1.2 变换域矢量
对一帧语音信号进行某种变换以后产生的相应矢量,如线性预测系数、LPC 倒谱系数、线谱对参数、共振峰率、短时谱等。倒谱系数描述了人的声道特征,其中基于声道全极点模型的LPC 倒谱系数(LPCC)具有广泛的应用。具有更好的识别性能的是基于符合人耳听觉的Mel 频率尺度提取出的倒谱系数MFCC 比LPCC 在去噪方面更出色。近年来,应用更为广泛的是小波变换,他的分辨率可变、无平稳要求等优点。
2 识别模型
所谓的识别模型,是指用什么模型来描述说话人的语音特征在特征空间的分布。对于说话人识别系统,特征参数被提取出来后,需要用识别模型为说话人建模,并对特征进行分类,以确定属于哪一个说话人。下面分别简要介绍这几种分类模型。
2.1 矢量量化模型
矢量量化是将若干个幅度连续取值的时域采样信号分成一组,即构成矢量,然后用若干离散的数字值(或标号)来表示各种矢量。用矢量量化模型识别说话人就是对某一说话人的特征矢量序列通过聚类算法可以聚为M类,求每类中所有矢量的均值就得到了每类的码本矢量,M个码本矢量构成了该说话人的矢量量化模型。在识别过程中,将每一特征矢量到某一说话人的M个码本矢量的最小距离进行累加,累加和最小的说话人作为识别结果。矢量量化模型分类特性较好,可以通过对长时语音特征参数统计信息的量化来区分说话人,还能压缩数据。用它建立识别模型,在数据量、训练时间、识别响应等方面都具有很强的优势。
2.2 隐马尔可夫模型
马尔可夫链推广的隐马尔可夫模型(HMM)也是一种比较常用的模型。在HMM模型中,观察到的事件与状态通过一组概率分布相联系,是一个双重随机过程,其中一个是马尔可夫链,它描述了状态之间的转移;另一个随机过程描述了状态和观察值之间的统计对应关系。隐马尔可夫模型是HMM模型的隐含状态,可以观察到的是状态产生的观察值。HMM模型的优点在于它既能用短时模型状态解决声学特性中相对稳定段的描述,又能用状态转移规律刻画平衡之间的时变过程,所以能统计地吸收发音的声学特性和时间上的变动。这是80年代语音信号数字处理技术的一项重大进展。HMM模型的缺点是分类能力比较弱,对噪声的鲁棒性较低。在实际环境下基于HMM的说话人识别系统识别性能会显著降低。
2.3 高斯混合模型
高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。描述说话人的个性是因为每一个说话人的语音特征在特征空间中形成特定分布。高斯混合模型使用多个高斯分布的线性组合近似说话人的特征分布,将最能够产生测试语音特征的说话人分布模型所对应的说话人作为识别结果。应用高斯混合模型训练时,每个人的语音可以分别建立一个模型,其目的本质上是估计模型参数的过程。训练结束后,保留每个对应参数;识别时,将未知语音与每个