移动通信第四版第7章语音编码技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第7章语音编码技术
以汉语发音为例来对语音波形图加以说明：
– 从波形图上可以区分以下几类发音： – 无声段和幅度较小的随机噪声段：特点是波形
幅度明显小于发音段，波形无规则 – 爆破音：特点是时长很短，仅有一两个脉冲，
幅度大于无声段，一般处于辅音前； – 辅音：b,d,g,p,t,k,s,sh,x,h,f,z,zh,j,c,ch,q,m,n,l,r 等，
? 数字语音信号处理中，通常采取短时分析技术。
带限
时变
准平稳
准周期
第7章语音编码技术
补充：什么是和弦？
? 手机的和弦数目等于midi格式中的音轨数，但是手机的每个音轨都是单音音轨，这是与我们在电脑上常常听的midi的最大的区别，也是和弦数目对铃声效果影响的由来。
? 和弦是按照一定的音程关系结合起来的三个或三个以上同时或先后发音，叫做“和弦”。传统和声以三度叠作为和弦构成的原则。通常是同时发音。当你在钢琴上同时按1，3，5 时所发的音，是一个以1为根音的大三和弦。和弦的好处是声音丰满动听，富有表现力。大三和弦听起来十分响亮，而小三和弦则委婉动听。
第7章语音编码技术
? 语音编码属于信源编码 , 是指利用话音信号及人的听觉特性上的冗余性 , 在将冗余性进行压缩 (信息压缩 )的同时 , 将模拟话音信号转变为数字信号的过程。语音编码是从模拟系统到数字系统至关重要的一步。语音编码的目的是在保证一定的算法复杂度和通信时延的前提下 , 占用尽可能少的信道容量, 传输尽可能高质量的话音信号。
波形编辑方式；参数编辑方式；按规则合成方式。
第7章语音编码技术
语音编码分类
波形编码
根据编码器的实现机理，分成三大类
参量编码
混合编码
第7章语音编码技术
1)
波形编码是将时域模拟信号直接进行取样、量化并变换成数字代码而形成的数字话音信号。
具体来讲, 波形编码是在时间轴上对模拟话音信号按照一定的速率来抽样, 然后将幅度样本分层量化, 并使用代码来表示。
第7章语音编码技术
? 如果你常常使用psmplay转换手机铃声，那么当被转化的midi比较复杂的时候，它就会提示“分解和弦数超过 16...”同理，很多在电脑上听起来不错的曲子不经分解直接传到手机上，效果就差了很多。你只要用好一点的 midi编辑软件看看就可以发现，一曲里面常常有很多相同音色的音轨，每个音轨都是单音。
单8 单 11.025 立 22.050 立 44.1
48
样本精度
8 8 16 16
数据率/s （未压缩）
64.0 88.2 705.6 1411.1 1536.0
第7章语音编码技术
音频概述
音频：人耳可以感觉到的声音频率
– 20Hz ~ 20000Hz
语音和音乐是两类特殊的音频信号
– 语音是语言的载体，是对声音的抽象 – 音乐是符号化的声音
特点是波形幅度略大于无声段，波形无规则，一般处于具有周期性波形的元音之前； – 元音：特点是波形幅度明显大于无声段，波形具有周期性。
第7章语音编码技术
频率特性
带宽有限一般为20~3400Hz ,有限的带宽特性决定了可以用有限的奈奎斯特取样速率，把语音信号离散化
功率谱密度
– 语音中不同频谱分量的平均概率可以用长时平均谱密度来表示。
第7章语音编码技术
电子音乐 midi格式
（Musical Instrument Digital Interface）乐器数字接口
? 所谓电子音乐midi格式是记录每个音的音色、音名、响度、角度、时间等，根据记录查询音色库，得到应发声音。简单的说，每个音轨对应一种乐器，上面以特定的格式记录每时刻该乐器所演奏的乐音。比如，在某时刻被定义为钢琴的音轨上记录着上面所说的135组成的和弦，那么芯片就查询音色库得到所对应的音效，然后合成、播放。所以音色库是关系midi是否动听的关键因素，好的音色库是很占地方的。
第7章语音编码技术
语音信号的产生
语音信号的频谱分量300-3400Hz 语音信号的短时性 5-50ms 语音信号的最基本组成单位是音素，音素可以分为浊音和清
音，在短时分析的基础上可以判断一段语音属于哪一类
第7章语音编码技术
波形特性
语音信号幅度动态范围一般最大为40分贝，实际由于说话人的差别可以达到60~70分贝。
– 发辅音的情况：此时又分为鼻音、阻塞音和摩擦音三种。发鼻音时，软腭下垂，鼻腔参加谐振响应（如发m,n等）。发阻塞音时，声道的某部分构成阻碍而完全封闭，使声门来的激励波在此处形成高压湍流，然后突然开放而发出声音来（如发p,t,k,b,d,g等）。发摩擦音时，声道的某部分构成未完全封闭的阻碍，使激励波在此处形成高速湍流，与该处产生摩擦而发出声音来。如发f,s,sh,x,h,r等。
移动通信对数字语音编码的要求如下:
– ·速率较低, 纯编码速率应低于 16 kb/s; – ·在一定编码速率下的音质应尽可能高 ; – ·编码时延要短 , 要控制在几十毫秒之内 ; – ·编码算法应具有较好的抗误码性能 , 计算量小,
性能稳定 ; – ·编码器应便于大规模集成。
Hale Waihona Puke 第7章语音编码技术语音信号的产生模型
声道是由咽腔、鼻腔和口腔三个空气腔组成的，起于声门，止于两唇。一般成年人声道长度大约为17cm左右，最大截面积可达20平方厘米左右。
长期研究证明，发不同性质的声音时，声道的情况是不同的。大致上可以分为两大类：
– 发元音的情况：此时，声道的口腔为稳定的某种形状的谐振腔。由声门来的准周期脉冲波激励它而产生响应。所有单元音、复元音以及复鼻尾音的元音部分都属于这种情况。
第7章语音编码技术
语音的特点
语音是由人类发音器官产生的、具有一定意义且能起到社会交际作用的声音。 – 具有抽象表意性 – 频率通常在200Hz~4000Hz之间
第7章语音编码技术
GSM移动电话原理框图
语音编码:用户的话音通过MIC转化成电信号,这个电信号通过ADC转化成数字的、代表语音的13Kbitps的信息流。
第7章语音编码技术
?CDMA系统移动台简化框图
第7章语音编码技术
CDMA系统基站简化框图
第7章语音编码技术
信源编、解码
通信信源中的模拟信号主要是话音信号和图像信号, 而移动通信中最多的信号是话音信号, 因而语音编码技术在数字移动通信中具有相当重要的作用。语音编码技术可以直接影响到数字移动通信系统的通信质量、频谱利用率和系统容量。
第7章语音编码技术
2 语音信号特征
一段语音信号的演示（MatLab）
第7章语音编码技术
用声音录制软件记录的英文单词“Hello”的语音实际波形
第7章语音编码技术
? 语音信号波形是语音声波经过声-电转换器得到的连续时间函数；波形图是语音幅度随时间变化的二维图。
? 波形以振幅随时间变化为特征，综合的表达了语音的全部信息：包括语音的内容、音调、音质、相对音量变化等；
– 语音波形高频分量对语音总能量的贡献很小，但是高频分量带有重要的语音信息，平均功率谱约在 250-500Hz处最大，而高于此频率的功率谱约以每倍频程6~10dB下降。
–语音信号的短时频谱并不总是低通特性。辅音有较高的频谱分量，显噪声特性；元音从总体上看是低通的，显示明显的局部特性。
第7章语音编码技术
第7章语音编码技术
? 手机中记录音乐的方法与midi相同或相似。所记录的全是单音，而复杂的和弦音效没有记录。既然如此，我们的手机为何依然如此动听呢？既然不能在一架钢琴上同时按下 “135”，那么就分别在三架钢琴上同时按1、3、5不就可以了，事实上手机和弦正是这样实现的，这样的和弦虽然不如真正的和弦好听，但是从手机里放出来也就差不多乱真了。这种把一件乐器上的和弦变成n件乐器单音的过程，似乎被称为“和弦分解”。
– 发清音的情况。此时声道松弛而不振动，气流通过声门直接进入声道。所有清辅音（汉语中除 m,n,l,r, 以外的声母），都属于这种情况。
第7章语音编码技术
周期脉冲发生器
随机噪声发生器
语音信号的产生模型
Av 声门脉冲
模型
Au
声道模型参数
声道模型
辐射模型
语音信号
第7章语音编码技术
一种更精确的域音产生模型
·不稳定气流激励产生 ·持续时间较长 ·归零快
爆破音 – 特点是时长很短，仅有一两个脉冲，幅度大于无声段，一般处于辅音前；
第7章语音编码技术
? 语音信号具有很强的“时变特性” 在有些段落中它具有很强的周期性，有些段落中又具有噪声特性，而且周期性语音和噪声语音也在不断变化之中。
? 语音信号是非平稳的，但具有“准平稳特性” 在较短的时间间隔内（一般20~200ms），可以认为语音信号的特征基本保持不变。
第7章语音编码技术
? 所以，一只16“和弦”的手机可以实现5种乐器同时发出三和弦，而40“和弦”的手机可以让5种乐器同时发出七和弦，或者13种乐器同时发出三和弦，或者.....“和弦” 数目越多，可能组合越多，音色就越丰富。这就是手机 “和弦”数目带来的声音效果差别所在。
第7章语音编码技术
? 长期研究还证明，发不同性质的声音时，激励的情况也是不同的，大致上可以分为两大类：
– 发浊音的情况：此时气流在通过绷紧的声带时，激励声带产生振动，使得声门处形成准周期性的脉冲串，并用它去激励声道。声道绷紧的程度不同，震动的频率也不同，这个频率就是基调频率。它的倒数就是基调周期。浊音不仅包括所有的元音，还包括浊辅音（如，汉语中的擦音r，边音l，鼻音m、n。在英语中，还有浊塞音b,d,g和浊擦音 j,q,z,zh等）
? 目前，国内市面上销售的手机，铃声大致可分为单音节铃声、3和弦、4和弦、16和弦、32和弦、40和弦、64和弦等铃声。单音和和弦音声音相差较大；4和弦铃声和16和弦的声音都太单簿，差别也比较大，40和弦和32和弦的铃声差别就不大了，而64和弦和40和弦就差别很大了。总之， 3和弦、4和弦是一个档次，16和弦是一个档次，32和弦、 40和弦是一个档次，64和弦是一个档次。
第7章语音编码技术
第7章语音编码技术
1 简介 2 语音信号特征 3 量化技术 4 APCM 5 子带编码 6 声码器
第7章语音编码技术
话音编码，信息量大
信号类型
话音 AM FM
高质量音频
(CD,DAT)
频率范围
200-3400 50-7000 20-15k 20-20k
单/立采样频率 kHz
Av
FN
周期脉冲
发生器
Av
Au
F1
F2
F3
AK
随机噪声发生器
AF
FK1
FK2
鼻音分支
口腔分支
F4
FN
擦音分支
第7章语音编码技术
一、话音波形的特性
浊音：声带的振动产生准周期的声门脉冲激
励声道产生浊音；
·准周期脉冲激励发出 ·章节高度周期性 ·2-20ms之间
第7章语音编码技术
清音：当气流在声道中受到阻碍时，产生湍流，此时生成清音。
第7章语音编码技术
语音合成技术
目前，实现语音合成的途径可以分为两类：
先将原始的语言信号存储在机器中，需要时再重现语音信号。
让机器象人类一样说话，模拟人的语言功能，完成从内容到声音的实现过程。
目前的研究主要是按规则的文本 —语音转换，将某种语言的书面语言转换为口头语言，即使计算机能够朗读文章。这并不是简单的任务；为了合成高质量的语音，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还要求必须对文章的内容有很好的理解，还将涉及自然语言的理解问题。现有的语音合成方法，大致可以分为三种类型：
元音幅度较大，有准周期性；清辅音幅度小，和噪声特性相似。在长时间的语音信号中有相当多的无信号区间，即所谓的语音
寂静区间。幅度概率密度函数以零幅和近似零幅的概率高，而幅度非常高
的情况概率很小。长时平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布
和伽玛(Gamma)分布逼近。对于短时幅度概率密度用高斯分布逼近就够了。
第7章语音编码技术
移动通信中采用的语音编码方法主要取决于无线移动信道的条件 :
(1) 由于频率资源十分有限 , 因此要求编码信号的速率较低 ; 由于移动信道的传播条件恶劣 , 因而编码算法应有较好的抗误码特性。
(2) 另外, 从用户的角度出发 , 还应有较好的话音质量和较短的时延。
第7章语音编码技术