声音信号的特征检测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
语言是人类最为重要的交流工具,它具有简易方便,准确自然等其他工具所无法替代的特点。随着信息社会的迅速发展,计算机已经渗透进人类生活工作的每一个角落,因此人机交互显得尤其重要。在人机交互的各种通信方式中,语音通信又是最好的交流方式,而声音信号的特征参数的精确度就会直接影响着语音通信的质量和准确度。因此,声音信号的特征检测在语音信号处理中是一项非常重要的工作。
本文利用MATLAB软件检测声音信号的特征参数,以语音信号为主,首先讨论了声音信号的基本特性,包括声音信号的产生,传播,声学特性等等。然后又分别讨论了声音信号在时域,变换域的特征参数。最后详细研究了声音信号的特征参数的检测提取。
第一章声音信号的基本特征
1.1声音信号的产生
声音是一种波,它是由物体振动产生的,能被人耳听到,它的振动频率在20~20000Hz之间。自然界中有各种各样的声音,如雷声,树叶被风吹时发出的“飒飒”声,大海波涛汹涌的翻滚声,机械工作时发出的声音等等。语音也是声音的一种,它是由人的发声器官发出的,语音的振动频率最高可达15000Hz。
语音信号的产生过程分为如下几个阶段:首先,说话人在头脑中产生想要用语言表达的信息;然后将这些信息转换成语言编码,即将这些信息用其所包含的音素序列、韵律、响度。基音周期的升降等表示出来。一旦对这些信息编码完成后,说话人会用一些神经肌肉命令在适当的时候控制声带震动,并塑造声道的形状以便发出编码中指定的声音序列。神经肌肉命令必须同时控制调音运动中涉及的各个部位:唇、腭、舌头以及控制气流进入鼻腔的软腭。一旦产生了语音信号,并将这些信息传递到听者时,语音的感知过程也就开始了。听者内耳的基底膜对语音信号进行动态的频谱分析,神经传感器将基底膜输出的频谱信号转换成对听觉神经的触动信号,这一过程和后面将要介绍的特征提取过程有些类似。作用在听觉神经上的活动信号,在大脑更高层的中枢转化成语言编码,并由此产生具有语义的信息。
人类的语音是由人体发声器官在大脑控制下的生理运动产生的。人的发声器官包括肺、气管、喉、咽、鼻腔和口腔等,如图1-1所示。喉以上的部分称为声道,发出声音的不同会导致其形状的变化,所以
听到的声音也不同;而喉(包括声带)的部分称为声门,呼吸时左右两声带打开,讲话时则合拢。声带每开启和闭合一次的时间即振动周期称为音调周期或者基音周期,其倒数称为基因频率,简称基频。基因频率取决于声带的尺寸和特性,也决定于它所受的张力。声带振动的频率决定了声音频率的高低,频率快则音频高,频率慢则音调低。基音的范围约为80-500Hz左右,它随发音人的性别、年龄及具体情况而定,老年男性偏低,小孩和青年女性偏高。
现在我们来讨论一下声音的产生过程。其原理图如图1-2所示。根据声带是否震动,语音又分为浊音和清音。在发声的过程中,肺当声带处于收紧状态时,流经的气流使声带振动,这时产生的声音成为浊音,没有声带振动的音称为清音。当声带处于松弛状态时,有两种方式能发出声音:一种方式是通过舌头,在声道的某一部分形成狭窄部位,也称为收紧点,当气流经过这个收紧点时会产生湍流,形成噪声型声音。这时对应的收紧点的位置不同及声道形状的不同,形成不同的摩擦音。另一种方式是声带处于松懈状态,利用舌头和嘴唇关闭声音,暂时阻止气流。当气流压力非常高时,突然放开舌与唇,气流被突然释放产生短暂脉冲音。对应于声道闭紧点的不同位置和
声道的形状,形成不同的爆破音。
综上所述,声道是气流自声门之后最为重要的器官,它是一个具有分布参数系统的谐振腔,因而有许多谐振频率。谐振频率由瞬态的声道外形所决定。人在说话的时候舌和唇连续运动,使得声道发生外形和尺寸上的改变,随即改变了谐振频率。谐振频率发生在
c,n=1,2,3,...
F n=(2n−1)
4L
C为声速,空气中c=340m/s。L为声道长度,n表示谐振频率的序号。这些谐振频率称为共振峰频率,简称为共振峰,它是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓或者谱包络。声音的频率特性也主要是由共振峰决定的。其中共振峰特性和元音的音色密切相关。
1.2声音信号的特征
1.2.1声音信号的基本特性
声音是一种波,它具有以下几种物理特征:○1音质。它是一种声音区别于其他声音的基本特征。○2音调。就是声音的高低。音调取决于声波的频率,频率快音调就高,频率慢音调就低。○3响度。响度表示声音的强弱,它是由声波振动幅度决定的。○4音长。它表示声音的长短,是由发音持续时间的长短决定的。
除了有物理特征外,它还具有另一个重要的性质,这就是声音总是能表达一定的意义和思想内容。而且不仅如此,它还能表达出一定的语气、情感。因此,声音中所包含的信息是丰富多彩的。
我们平时说话的时候很自然地一次发出来的、有一个响亮的中心的、听的时候也很自然地感到是一个小的语音片段的,称为音节。音节是构成语音的最小单位,是发声的最小单位。而一个音节又是由一个或若干个音素构成,音素是语音的最小、最基本的组成单位。各种音素组合到一起构成了不同的音节,各种音节组合到一起又构成了更大的单位——词,词是文章的基础,是有意义的语言的最小单位。
任何语音都有元音和辅音两种音素。一个音节由元音和辅音构成。元音是由声带的振动发出的声音,它是一个音节的主要部分。每个元音的特点是由声道的形状和尺寸决定的。所有元音都是浊音。辅音则是由呼出的气流克服发音器官的阻碍而产生的。发辅音时如果声带不振动,称为清辅音;发辅音时如果声带振动,则称为浊辅音。
1.2.2声音信号的时域波形及特性
在进行声音信号数字化处理时,能最为直观的了解声音信号的方式便是看它的时域波形。下面我们利用计算机声卡录音,看一下这段声音的时域波形。要求采样频率为8kHz,每个采样点用16位进行量化,录音时间为1s,内容为“你好”。图中横轴为时间,纵轴为信号的幅度。从图1-3(a)中可以看出声音能量的起伏,以及声音信号随时间变化的过程。图1-3(b)是将“好”的元音部分/ao/拉长后的形状。图1-3(c)是“好”的辅音/h/的波形图。