多媒体计算机的声音信息处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章多媒体计算机的声音信息处理
4.1 数字化声音信息的获取
一、声音
多媒体计算机中由于增加了音乐、解说和一些有特殊效果的声音,这就使多媒体应用程序显得丰富多彩,充满活力。
声音(Sound)是文字、图形之外表达信息的另一种有效方式。从物理学角度来认识,空气振动而被人们耳朵所感知就是声音。通常,声音用一种连续的随时间变化的波形来表示,该波形描述了空气的振动(图4.1)
图4.1 声音的波形表示
从图中可以看出,波形的最高点或最低点与基线(时间轴)之间的距离称为该波形的“振幅”。振幅表示声音的音量。波形中两个连续波峰间的距离称为“周期”,波形的“频率”是1秒钟内所出现的周期数目,单位是赫兹(Hz)。声音按其频率的不同可分为次声、可听声和超声三种。次声的频率低于20Hz,它是一种人耳听不见的声音。或听声的频率在20-20000Hz之间,这是人耳可感受的声波。超声的振动频率高于20000Hz,也是人耳听不见的声波。多媒体计算机中处理的声音信息主要是指可听声,所以也叫音频信息(Audio)。
从应用的角度来说,多媒体计算机中的声音可分为三类:一类是语言(语音),它的作用与文字信息一样,输出的语言可作为解释、说明、叙述、回答之用,输入的语言可做命令、参数或数据。第二类是音乐、音乐的播放可烘托气氛、强调应用程序的主题。第三类是效果声(Sound Efect),例如括风、下雨、打雷、爆炸等,它们在特写的场合下起到文
字、语言等无法代替的作用。
多媒体计算机中发出的声音有两种来源。一是获取法,即利用声音获取硬件将指定的声音源所发出的声音转换成数字方式并经过编码后保存下来,输出时再进行解码和数模转换,还原成为原来的波形。另一种是合成法,计算机通过一种专门定义的语言去驱动一些预制的语言或音乐的合成器,借助于合成器产生的数字声音信号还原成相应的语言或音乐。合成法的优点是数据量大大减少,特别是音乐的合成技术上已很成熟,这在下面第三节进行介绍。
二、声音信息的数字化
声音信息的计算机获取过程主要是进行数字化处理,因为只有数字化以后声音信息才能像文字、图形信息那样进行存贮,检索、编辑和各种处理。声音信息的数字
的数字化过程通常如图4.2所示。
图4.2 声音信息的数字化
采样指的是以固定的时间间隔对波形的值进行抽取。如果以Xa(t)表示声音的连续波形,则采样后得到的是一个离散的序列X(n)。如果以T作为时间间隔(称为采样周期),则采样后得到的声音信号序列为:
X(n)=Xa(nt) n=1,2,3,....
序列中的每一个信号,称为“样本”。采样后得到的样本,其数值仍然是模拟量。
采样过程最重要的参数是采样频率。采样频率越高,声音保真度越好,但要求的数据存贮量也就越大。理论研究表明,采样频率为声音信号的最高频谱分量的两倍时,即可不失真地还原了原始声音信号,若超过此采样频率,则就包含某些冗余信息;若低于此频率,则产生失真。实验表明,使用8KHz采样频率时,人们讲话所产生的语言信号的处理已可以基本满足要求了。
多媒体计算机在声音信号获取时,采样频率通常可以有三种选择,它们是;44.1KHz,22.05KHz和11.025KHz。
声音信息数字化的第二步处理是量化,即把每一个样本值X(n)从模拟量转换成为数字量,该数字量用n个二进位表示,精度是有限的。n越大,量化精度越高,反之量化精度降低。若量化过程用Q表示,量化后的样本用x^(n)表示,则量化过程可表示为:
x^(n)=Q「X(n)」 n=1,2,3,..
量化误差可以定义为:
e(n)=x^(n)-X(n) n=1,2,3,..
显然,不论量化精度有多高,量化过程必定会引入一定的误差,这些误差是量化时数的截尾和舍入所引起的。由于量化误差的存在,当数字化的声音还原成模拟量的波形输出时,
必然会产生一定的噪声,这称为量化噪声。但是,只要选择适当的量化精度,量化噪声可以控制在人耳感觉不出的程度。
多媒体计算机中声音的量化精度一般有两种:8位和16位。前者是将样本划分为256等份,后者则分为65536等份。任意一个特定的样本值经过量化后只能是256(或65536)个不同结果中的某一个,量化精度分别为2-8或2-16。
计算机中的后有信息都是以二进制形式进行存贮、传输和处理的。经过采样和量化后所得到的数字化声音信息还必须以二进制形式并按照一定的数据格式进行表示,这个过程称为“编码”。在不进行任何信息压缩时,多媒体计算机中的每个样本值可以用8位或16位整数来表示,前者为一个字节,后者为两个字节。若需要进行信息的压缩,则编码过程要复杂得多。这在本章第二节中再进行讨论。
三、数字化声音的质量与存贮容量
决定数字化声音的质量和存贮容量的因素有三个:采样频率、量化精度和记录的声道数目。声音通道(声道)的个数表明声音获取过程中只记录一个声波(单志道)还是记录两个波形(立体声)。立体声听起来要比单声道的声音丰满,真实感更好,但需要两倍的存贮空间。一般而言,用获取方法所得到的数字化声音的信息量都很大。下面是计算音频信息文件所需存贮容量的公式(单位:字节):
存贮容量=采样频率*样本量化精度/8*声道数目*声音持续时间(秒)
例如,一段1分钟的双声道所需要的存贮容量见表4.1所示。
按照数字式激光唱盘的标准(CD-DA标准,也叫红皮书标准),其上所记录的数字化声音采样频率为44.1KHz,量化精度为16位,它具有很高的声音保真度。多媒体计算机一般都能播放CD-DA唱盘,以取得最好的效果。
表4.1 1分钟立体声所需的存贮空间
使用CD-DA声音虽然效果好,但占用存贮空间很大,且数据速率也高达88.2KB/s(单声道)或176.4KB/s(双声道),这就要求占用CD-ROM驱动器的全部能力,即播放CD-DA声音时夫法再从CD盘上读取其他数据。所以开发多媒体应用软件时,获取数字化声音所使用的采样频率和量化精度可根据实际情况进行选择。当录音技术很好时,22.05KHz采样频率、8位量化精度所获取的数字化声音,播放时可达到调幅广播的质量。若采样频率降低到11.025KHz,则可用作为语言或低频为主的声音信息。