多媒体通信技术_第二章

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
域仅限于中心频率附近很窄的范围,随
着声压级的升高,掩蔽区域的范围也随
之变宽。 利用掩蔽效应,可以用有用信号掩蔽 无用信号,而不必彻底消除无用信号。
语音信号压缩编码的评价系统 语音质量是衡量语音编码算法优劣的关
键性能之一。语音质量通常分为四类:
(1)广播级:宽带(0~7000Hz)高质量的语音,
感觉不出噪声存在。
进行编码,以200个采样值为一帧信号,并以
帧作为处理的基本单元进行参数编码。每一
帧语音用一组参数表示,判决位:浊音和清
音(1位);浊音的基频(周期)(6位);
音源的幅度(5位);线性滤波器参数(10个
参数,每个参数6位),则总的码速率是多少?
3. 混合编码
压缩信号的质量和压缩率是语音信号处理
的两个方面,它们又是相互矛盾的,需要进行 权衡。 混合编码将波形编码和参量编码组合起来, 克服了原有波形编码和参量编码的弱点,结合 各自的长处,试图保持波形编码的高质量和参 量编码的低速率。
声波频率 声波频率是指信号每秒钟变化的次数。 人耳能感觉到的声音频率范围20Hz~20kHz。
人对声音频率的感觉表现为音调的高低,
在音乐中称为音高。
音调
音调是由频率所决定的。音乐中音阶的
划分是在频率的对数坐标(20×log)上取 等分而得的。
简谱符号 频率(Hz) 1 261 2 293 3 330 4 349 5 392 6 440 7 494
浊音又称有声音,语声发声时声带在气流
的作用下激励起准周期的声波。这一准周期音
称为基音,其基音周期为4~20ms相当于基音
频率在50~250Hz范围内。
浊音声波波形图
浊音频谱示意图
清音又称无声音。清音没有周期特性。从
清音的频谱分析可知,清音中不含具有周期或 准周期特性的基音及其谐波成分。
清音声波波形图
y N a1 y1 a2 y 2 a N 1 y N 1 ai yi
i 1 N 1
当前样值与预测值的差值为:
e0 y N y N

差分脉冲编码调制系统
自适应差值脉冲编码调制(ADPCM)
为了进一步提高编码性能,将自适应量化
技术和自适应预测技术结合,实现自适应差分 脉冲编码调制,它的核心思想是:利用自适应 的思想改变量化阶的大小,即使用小的量化阶 去编码小的差值,使用大的量化阶去编码大的 差值。 自适应量化的方式可以分为:前向自适应 量化和后向自适应量化两种。
和参量编码是两种基本类型。
1. 波形编码
波形编码是将时间域信号直接变换为数字
代码,试图使重建语音波形保持原语音信号的 波形形状。
波形编码的基本原理是在时间轴上对模拟
语音按一定的速率抽样,然后将幅度样本分层
量化,并用代码表示。解码是其反过程,将收
到的数字序列经过解码和滤波恢复成模拟信号。
它具有适应能力强、语音质量好等优点,但压
(索引)代替输入矢量进行传输和存储,而解
码时只需要简单地查表操作即可还原信息。
矢量量化的三大关键技术为:码书设计、 码字搜索和码字索引分配。 矢量量化实质上是一种量化方式,由于具 有压缩功能,因此可作为一种压缩编码方法。
矢量量化编码的原理是:在发送端将语音 信号的样值数据序列按某种方式进行分组,每
上是长途电话网标准;3.5分为通信标准;
3.0分仍有较好的可懂度,保持自然度;2.5
分只维持可懂度,是战术通信标准。
客观评价方法
(1)波形失真度,用信噪比来度量
(2)频谱失真测量
(3)谱包络失真测量
2.2 音频信息编码分类
音频信息的编码技术通常分为三类:波形
编码、参量编码和混合编码。其中,波形编码
采用混合编码的编码器有:
三种压缩编码的性能比较
2.3 常用压缩编码 1. 差值脉冲编码调制(DPCM)和自适应差值
脉冲编码调制(ADPCM)
语音信号经采样后得到的采样值相关性较
强。传统的脉冲编码调制(PCM)是对整个样
值进行编码。如果考虑到相邻样值间的相关性,
即相邻样值间的差值一般很小,对差值编码所
清音频谱示意图
语声信号产生模型
语声信号产生模型
语声信号的这种实现过程称为语声信号 的分析合成,实现这一过程的系统称为声码 器。
语音的发声过程是一个近似的短时平稳
随机过程,在短时间内(10~20ms)发声过
程中的参数变化比较慢。
参数编码的典型代表是线性预测编码
(LPC)。
例:一路模拟话音信号,采样速率8k,采样后
由于掩蔽音的存在,人耳要想听到被掩
蔽音,被掩蔽音的听阈必须提高到一定的分
贝数,这个提高值称为一个声音对另一个声
音的掩蔽值,提高后的听阈称为掩蔽阈。
因此,一个声音能被听到的条件是:这
个声音的声压级不仅要超过听者的听阈,而 且要超过它所在背景环境中的掩蔽阈。
不同声压级400Hz和1200Hz纯音的掩蔽 谱
(2)网络或电话级:200Hz~3200Hz,信噪比
大于30dB。
(3)通信级:完全可以听懂,但和长途电话相
比,有明显失真。
(4)合成级:80%~90%可懂度,音质较差, 听起来像机器讲话,失去了讲话者的个人特 征。 声音质量评价 对声音质量的评价分为主观评价和客观 评价两种。
不同的人背景不同,对声音的评价也是
多媒体通信技术
Βιβλιοθήκη Baidu2章音频技术基础
2.1 声学基础知识
2.2 音频信息编码分类
2.3 常用压缩编码方法
2.4 音频信息压缩编码标准
2.5 多媒体音频信号文件格式
2.1 声学基础知识
1. 声音信号特性
音频信号特征可以从时域和频域两个
方面进行说明。
声音信号的时域特征说明了人们听到 的声音从产生到结束的过程。
频率(对数) 48.3 49.3 50.3 50.8 51.8 52.8 53.8
声压 声压和声压级(SPL)是用来说明 人耳对声音强弱的感觉。
听阈:人耳能听到的声音的声压,1Hz时
为2×10-5Pa。
痛阈:人耳感到疼痛的声压,20Pa。
当声音的强弱呈线性变化时,人耳
对声音强弱的感觉不是线性的。
个组假定有k个数据,一组数据就构成了一个k
维矢量。每个矢量有对应的用二进制数来表示
的下标。把每个数据组所形成的矢量视为一个
码字,语音数据所分成的组就形成了各自对应
的码字。把所有这些码字进行排列,可以形成
一个表,这样的表就称为码本或码书。
在矢量量化编码方法中,传输的不是对应 的矢量,而是每个矢量对应的下标。由于下标 的数据相比于矢量本身来说要小得多,因此就 实现了数据的压缩。
大不相同的,可以说主观评价方式是比较全
面的。
主观评价方法
评价指标:
(1)清晰度或可懂度评价(DRT)
(2)音质评价 前者是指语音是否容易听清楚;后者 指语音听起来有多自然。 音质评价分为:平均意见得分(MOS) 和判断满意度得分(DAM)。
MOS得分为五个等级:优、良、中、差、 劣。满分为5分,相当调频广播质量;4分以
耳听到同样响度时所需的声压级不同。
人耳对声压及变化的感觉是:声压级
每增加10dB,响度增加一倍。
分析等响曲线可得出以下结论:
(1)人耳对不同频率声音的灵敏度不同,
对中频段最为敏感,对高、低频段的敏
感度下降。 (2)从听阀曲线可看出, 4kHz左右是曲 线的最低点,即人耳听到4kHz左右声音 所需的声压级最小,因而对4kHz左右声 音最为敏感。
均等的,说明人耳对1kHz附近的频率,声
压变化的dBSPL值与听觉上的音量感的变化
是比较一致的。因此,选定1kHz声音作为
各种声音的声压级基准。
人耳听觉的掩蔽效应 由于第一个声音的存在而使第二个声音 提高听阈的现象称为掩蔽。当人耳听到符合 声音时,若存在响度较高的声音频率分量, 那么人耳对响度较低的声音频率分量就不易 察觉到了,这种生理现象称为掩蔽效应。
60dB,400Hz纯音和窄带噪声的掩蔽谱
中心频率为1200Hz的带有噪声的掩蔽谱
大量实验数据表明: (1)频率低的纯音比较容易掩蔽频率高的
纯音,而频率高的纯音比较难掩蔽频率 低的纯音。 (2)单一频率的纯音与同频窄带噪声相比, 在具有相同声压级的情况下,窄带噪声 的掩蔽效应要比纯音明显。
(3)在较低声压级时,窄带噪声的掩蔽区
缩程度不高,实现的码速率也较高。在对信号
带宽要求不太严格的通信中得到应用,而对频 率资源相对紧张的移动通信则不合适。
常见的波形压缩编码方法有:
脉冲编码调制(PCM) 增量调制编码(DM)
差值脉冲编码调制(DPCM)
自适应差分脉冲编码调制(ADPCM) 子带编码(SBC) 矢量量化编码(VQ)
起始
稳定
结束
声音信号的频域特征是指声音是由很多 的正弦分量组成的。
周 期 信 号 非 周 期 信 号 傅 立 叶 级 数 傅 立 叶 积 分 离 散 线 状 谱 有 明 确 高 音 无 明 确 高 音 的 有 调 声 音 的 无 调 声 音
声 音 信 号
连 续 谱
在多媒体技术中,常用声波频率、
声压、声强等参数来描述声音。
采用波形编码时,编码信号速率的计算公式:
编码速率=采样速率×编码比特数
计算音频信号所需存储容量: 存储容量=播放时间×速率÷8(字节)
2. 参量编码 参量编码又称为声源编码,是以发声机制 的模型为基础,将信源信号在频率域或其它正 交变换域提取特征参量,并将其进行量化编码, 以实现传输。在接收端,重建语音信号,使其 具有尽可能高的可靠性,即保持原语音的语意。
需的码位数也较少,则可以实现压缩编码。
差值脉冲编码调制(DPCM)
差值脉冲编码调制是利用样本间存在的信
息冗余度来进行编码的一种数据压缩技术。基
本思想是:根据过去的样本去估算下一个样本
信号的幅度大小,这个值称为预测值,然后对
实际信号值与预测值之差进行量化编码,从而 就减少了表示每个样本信号的位数。
对当前样值的预测值可以由其前面的若干 个样值来进行预测,预测表达式为:
2.人耳听觉特性 声音是一种物理现象,人耳听到声音后
对声音的感受却是一种心理现象,首先应弄 清楚人耳的主观感受与声音的物理量之间 的关系。 人耳对声音的三种主观感受用响度、 音调和音色描述。 与之相对应的客观物理量为声压或声 强、频率和波形(频谱结构)。
响度和响度级
人耳对声音响度的感觉与声压级和频
(3)声压级越高,人耳听觉频响越趋平直;
反之,声压级越低,人耳听觉频响越不好,
高低频都会有所损失。
(4)对100Hz以下的低频声,人耳的灵敏度
会急剧下降。对20Hz声音的听阈为70dBSPL,
因此为了进行有适当低音的调音,监听扬声
器的声压级至少应为70dBSPL。
(5)曲线族之间的间隔1kHz附近几乎是
为了获得比较好的处理结果,混合编码方 法是同时采用上述两种方法甚至两种以上的编
码方法来进行编码的,其压缩比特率一般在
4~16kbit/s。
混合编码是在参数编码基础上的改进,其
差别在于信号激励源的选取更加精细。由于采
用不同的激励方式,客观的模拟了激励源的特
性,从而使重构语音信号的质量有了很大的提
高。
自适应差分脉冲编码调制系统
2. 线性预测编码(LPC) 线性预测编码是一种比较简单的编码方法。
将语声激励信号简单的划分为浊音信号和清音
信号。由于语声信号是短时平稳的,根据语声
信号的短时分析和基音提取方法,可以用若干
的样值对应的一帧来表示短时语声信号。这样 逐帧将语音信号用基音周期、清/浊音判决、 声道模型参数和增益来表示。对这些参数进行 量化编码,在接收端再进行语声的合成。
线性预测编码原理
按照线性预测编码原理实现的LPC-10声码
器已经用于美国第三代保密电话中,其编码速
率只有2.4bit/s,虽然其编码速率很低,但是
由于其信号源只采用简单的二元激励,在噪声
环境中的语音质量不好,所以目前已被新的编
码器替代。
3. 矢量量化编码 矢量量化的理论基础是香农的速率失真理
论,利用码书中与输入矢量最匹配的码字下标
率有关,将人耳在听到不同频率纯音(正弦
波)时,对所有具有相同音量感的声压用一
条曲线表示后得到的曲线族,称为等响曲
线。
将1kHz纯音(基音)以dB表示的声压级
定义为响度级,单位为phon(方)。




等响曲线
图中每条曲线上所代表的与声压级、
频响相对应的声音,人耳听来都是同样响
的,也可以理解为对于不同频率的声音,人
参量编码的特点:可实现低速率语音编码,
比特率可压缩到2~9.6kbit/s 之间。 缺点:重建信号的波形同原语音信号的波 形有相当大的差别,语音质量较差,清晰度满 足要求但自然度较低,难以分辨处讲话者;其 次是电路实现复杂度高。
发生机制模型 构成声音的音素可以分为:浊音(声带振
动)和清音(声带不振动)。
相关文档
最新文档