语音的产生机理

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

历史
原先的说话人识别，往往是用视觉来判断声
音频谱图，或者用听觉判断是谁的声音。随着计算机的发展，自动说话人识别（ASR）的研究得到了迅速的发展。
自动说话人识别是指利用计算机技术，不需
要人们的干预，自动的进行身份认证。
内容
1.
2.
引言历史语音产生机理语音特征
3.
4. 5.
系统架构
语音的产生机理

语音产生器官

发声器官——语音合成

肺、气管、喉（包括声带）、咽、鼻、口。它们共同形成一条形状复杂的管道喉与气管的接口处称为声门
引言

The speaker recognition process relies on features influenced by both the physical structure of an individual’s vocal tract and the behavioral characteristics of the individual. 声音是个复杂的信号，说话人有关的差异是声道在解剖学上的差异和后天的说话习惯差异的综合的结果。在说话人识别中，所有的这些差异都可以被用来区别不同的用户。它涉及到说话人发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异。说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。
引言

说话人识别的特殊优势

对用户干扰少，易被用户接受最经济的方法之一，输入设备造价低廉语音获取非接触，具备卫生方面的安全性适用基于电信网络的应用中

因此，说话人识别研究具有巨大应用前景
Hale Waihona Puke 引言声纹分析技术的应用领域：

信息查询领域的应用在电话交易的应用在PC以及手持式设备上面的应用在保安系统以及证件防伪中的应用与二维条码技术相结合的防伪应用
语音的产生机理

众所周知，发声从肺部挤出空气开始，空气通过振动声带造出振动波。由于这个振动波在自声带到口为止的“3个箱子”各自振动，进一步强化共振，最终构成声音。这3个箱子是“咽头”、“口腔”、和“鼻腔”。在制造语音的3个箱子中，口腔扮演了重要的角色。因为通过舌头能够改变空间的容积。如果容积改变，则发音也改变了， 3个频率的组合产生声音。
污染，甚至有可能也对频域特征造成污染，这就给提取出正确的反映说话人的特征，造成了很大的困难。
内容
1.
2.
引言历史语音产生机理语音特征
3.
4. 5.
系统架构
历史
以人们的语音作为身份认证的手段，据说是从 1660 年英国查尔斯一世之死的判决开始的，首次利用语音作为推断犯人作案的线索。其后随着技术的发展，电话克服了距离的障碍，录音手段克服了时间的障碍，从而使得对语音的说话人个性的分析得到了关注。
挑战
说话人的发音经常与环境、情绪、健康状态有密切关系。语音信号或者称为“声纹（voiceprint）”与指纹（fingerprint）不同，指纹是静态的、固定不变的生理特性，而说话人特征具有长时变动特性，会随时间、年龄的变化而变化。如感冒、声道管疾病，都有可能使发出的声音改变。情绪变化也是一个因素，大声喊叫的时候，声道的形状显然同正常状态有很大的不同。

挑战
声音往往是可以模仿的，还可以预先录制起
来，如何区别真假声音也是很头痛的事情。特别是对于远程电话身份认证，不能采用同用户的其他特征相结合的办法。
挑战
线路传输所带来的线路噪声，包括不同线路
噪声情况可能不同、同一线路在不同时期噪声情况也会不同，噪声的处理也很有难度。
噪声可能导致语音信号在整个时域空间上的

历史

从1937 年开始，以C. A. Lindbergh 先生的儿子拐骗事件为开端，对语音的说话人个性开展了科学的测量和研究。 1945 年，美国贝尔实验室的R. K. Pooter 发明了语音频谱图，能把所谓的声纹（voiceprint）动描述出来。 1962 年，贝尔实验室的L. G. Kersta 第一次介绍了采用上述方法进行说话人识别的可能性。 1966 年，美国法院第一次采用此方法进行了取证。

引言
语音处理研究的基本内容

说的是什么内容？ · · · · 语音识别是谁在说话？· · · · · · · · · · · · 声纹识别说的是什么语言？ · · · · 语种识别计算机去说话？ · · · · · · · · 文语转换怎么把话说好？ · · · 说话水平评估
引言

Speaker, or voice, recognition is a biometric modality that uses an individual’s voice for recognition purposes. 说话人识别（声纹识别）是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。 It is a different technology than “speech recognition”, which recognizes words as they are articulated, which is not a biometric. 声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。
生物认证技术
Biometrics
第五章声纹识别
内容
1.
2.
引言历史语音产生机理语音特征
3.
4. 5.
系统架构
引言

声音是携带信息的极其重要的媒体（20％）

声音是通过空气传播的一种连续的波，叫声波，也具有反射、折射和衍射现象。
声音信号是由许多频率不同的分量信号组成的复合信号。复合信号的频率范围称为带宽。带宽为20Hz－20kHz的信号称为音频（audio）信号，可以被人的耳朵感知。声音是时基类媒体。