声音信号处理基本原理

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

声音信号处理基本原理

一、声音信号之特性

声音是一维信号研究的重要对象，最常见的传播声音的介质是空气，声波和电磁波有很大的不同，例如声波的速度显然比光波慢的多，声音传播的速度与介质的性质和温度有关，例如在空气温度为0 度时，声波的速度为331.5m/s，如果空气温度每升高 1 度时，则声音传播的速度约增加0.6m/s。电磁波是利用电磁感应的方式来传播，而声波的传播方式则通常是机械式的，当介质如空气受到某处震源的压迫时，被压迫的空气分子，就对其平衡位置产生位移，并引起附近空气分子也对其平衡位置产生位移。如所受的压迫是周期性的，而且其频率在声波范围内，此时，空气中就产生声波。声波通常是指振动频率在人能感应范围以内的波动，称为可闻波(Audiblesound)。当频率高于可闻声时称超音波(Ultrasound)，其能量较高，一般可用于医学或工程之检测或塑料等材料加工，至于频率比可闻波低时称为低音波(Infrasound)，例如地震所引起的地震波。

至于目前声音信号与数字信号处理关系最大的，首推通信方面，由于多媒体信息普及，其数据内容除了文字就是图片与声音，尤其是结合数字电子声音技术的因特网电话，它利用数字信号处理将语音加以数字化压缩，转成数据的形式之后再用线路一部分的频宽移作声音传送，透过因特网传送到通话的彼端，再解压缩回复成为原来的声音，在现在的计算机配备中，计算机音效早已从以往的PC 喇叭变为Adlib 卡、声霸卡等输入及输出的装置，因此使得因特网电话出现广泛的热潮﹐目前已有在网络上面点播歌曲的应用案例。一般电话的语音与电视讯号都是模拟的形式﹐不经过压缩与编码就能传送，但是在频宽与多任务能力方面却远不如因特网﹐因此数字信号处理将掀起未来通信方面的革命。

数字电子声音技术中有一项很重要的工作就是编码的方法，常见的编码方法为脉波码调制(pulse code modalation; PCM) 及高阶脉波数字码调制(advanced pulse code modulation; ADPCM)，目前像雷射唱盘、数字录音带、通信卫星、电话通信，都是各式各样的PCM 技术应用的具体例子。影响PCM 的效果的一个因素一为取样频率，一为取样位数，由于这两者其值大小都与人类的听觉与语音能力有关，因此我们先介绍人耳及嘴唇方面的特性。

二、人耳及嘴唇方面的特性

如果我们把人类的语音转到频谱上来分析，可以看到在频谱上人类语音信号大都集中于某一个区段有较高的能量，这也意味着这个能量较高的频带就是人类声腔的共鸣区域，我们通常称这个频带为基本频率(fundamental frequency)，每个人的基本频率因为天生的口腔结构而有所不同，通常小孩子的基本频率在250～400HZ 左右，而成年女子约在200～300HZ左右，而成年男子则约在100～150HZ 左右，因此男高音较为少见，也就是这个原因。

当人类发出声音时，如果有利用到声带振动来发音，则称为有声音(Voiced Sound)，否则称之为无声音(unvoiecd sound)，而语音中又可分为具有稳定声道激发共鸣振动及音源振动变化较多较杂乱的子音。

对人类耳朵而言，而够接受的音频范围很窄，大约在10Hz到20 KHz左右，而其中在 1.2 KHz 到 1.4 KHz 左右是听觉最敏锐的频带，而在此频带之前，人耳对较低的频率并不敏感，随着频率越高，人耳便越听得清楚，亦即人耳对高频的声音有自动增益的效果(AGC)。因此如果我们用手来回挥动空气，如此低频的振荡，是无法发出人耳可以发觉的声音，除非我们鼓掌，在拍手的过程中，两手迅速的撞系并将空气挤压出去，这种较短的脉冲式振动，其中包含了高频的空气振动，因此人耳便能够听到拍手的声音。

相对的人的嘴唇构造却较无法发出高频的声音，随着发出的声音频率越高，嘴中所发出的强度即随之而减弱，因此当我们在作语音信号取样时，并不需要将取样频率取得太高，一般而言，使用11 KHz 即告足够，因为语音中高频的部份很少，声音的变化不快，但音乐就不同了，音乐数据变化性通常很大，一般取样频率是使用22KHz，如此重新放出来时人耳听来才不致有失真的感觉。

三、声音讯号数据之取样量化

当声音讯号数据之取样量化的位数为80 时，可以得到256 个音阶，而取样位数为16 时，则拥有65536 个音阶，较高的取标频率与较多的取样位数意谓着较高的质量，但同样的也表示较昂贵的装备和较大的记备空间。

对语音而言，使用8 KHz 取样频率， 4 bit 取样位，记录一分钟语音再予压缩后大约要花掉62 KB 的内存。对收音机的声音而言，使用11 KHz 取样频率记录一分钟则占用322 KB 的内存，而记录调幅合成日时，使用22 KHz 取样频率，则要占去1291KB 的内存，至于若要达到激光唱片的质量要求，则使用44.1 KHz 取样频率，16 bit 取样位，因此记录一分钟便要5167 KB 的内存，在没有压缩的情况下，一张光盘也只能储存七十六分钟的音乐而已。

由于PC 喇叭为早期的个人计算机标准配备，早期个人计算机的教学软件及电动玩具程序，是直接利用个人计算机上面的喇叭把电动玩具的音乐播放出来，虽然表现的效果比不上声霸卡的真实动听，但，不像现在的音效软件动辄数片光盘片，为什么它所占的资料文件很小呢？这是因为个人计算机上喇叭装置不像声霸卡有256 或更高的音阶，它只有一个位，亦即只有两种状态：开与关，大家可能会怀疑只是将喇叭做开与关的动作真的能够产生音乐吗？然而代表声音信号特色的两个要素："频率"与"音量"来看，"频率"这个要素无宁是重要了许多，因此我们将音乐波形转换成各种不同频率的方波后，推动喇叭来发音，仍然可以得到近似的声音，例如想产生高音时只需将喇叭的开与关动作加速，就可以产生较高频的声音，同样的，如果想要产生低音时则将喇叭开与关的速度放慢，就可以产生较低频的声音，由于音量无法控制，因此在比较高频的音效里，其所包含的能量较多，听起来一定比低频的声音大声。

四、一维信号辨识系统

单纯的将一维信号予于传利叶转换到频谱上去分析，有时候就能够把问题的症结找出来了。除了机械结构物体的振动分析之外，我们也可将类似的技术用在生物体上，例如用在生鲜鸡蛋的节选上，工程人员将一个脉冲振洫施加于蛋壳上，再利用一束雷射光照射于鸡蛋上并侦测其反射回来的光信号变化，便可得到蛋壳表面的振动位移信息，再这些振动位移信息予以傅氏转换，观察其频谱上之峰值出现于何处，就可知道这个鸡蛋是否是颗好蛋或昃已感染了病毒，因为好蛋和坏蛋的自然频率是有很大的差异量的。