移动通信第四版第7章语音编码技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第7章 语音编码技术
以汉语发音为例来对语音波形图加以说明:
– 从波形图上可以区分以下几类发音: – 无声段和幅度较小的随机噪声段:特点是波形
幅度明显小于发音段,波形无规则 – 爆破音:特点是时长很短,仅有一两个脉冲,
幅度大于无声段,一般处于辅音前; – 辅音:b,d,g,p,t,k,s,sh,x,h,f,z,zh,j,c,ch,q,m,n,l,r 等,
? 数字语音信号处理中,通常采取短时分析技术。
带限
时变
准平稳
准周期
第7章 语音编码技术
补充:什么是和弦 ?
? 手机的和弦数目等于midi格式中的音轨数,但是手机的每个 音轨都是单音音轨,这是与我们在电脑上常常听的midi的最 大的区别,也是和弦数目对铃声效果影响的由来。
? 和弦是按照一定的音程关系结合起来的三个或三个以上同时 或先后发音,叫做“和弦”。传统和声以三度叠作为和弦构 成的原则。通常是同时发音。当你在钢琴上同时按1,3,5 时所发的音,是一个以1为根音的大三和弦。和弦的好处是 声音丰满动听,富有表现力。大三和弦听起来十分响亮,而 小三和弦则委婉动听。
第7章 语音编码技术
? 语音编码属于信源编码 , 是指利用话音信号及人 的听觉特性上的冗余性 , 在将冗余性进行压缩 (信 息压缩 )的同时 , 将模拟话音信号转变为数字信号 的过程。语音编码是从模拟系统到数字系统至关 重要的一步。语音编码的目的是在保证一定的算 法复杂度和通信时延的前提下 , 占用尽可能少的 信道容量, 传输尽可能高质量的话音信号。
波形编辑方式;参数编辑方式;按规则合成方式。
第7章 语音编码技术
语音编码分类
波形编码
根据编码器的实现机理,分成三大类
参量编码
混合编码
第7章 语音编码技术
1)
波形编码是将时域模拟信号直接进行取样、 量化并变换成数字 代码而形成的数字话音信号。
具体来讲, 波形编码是在时间轴上对模拟话音信号按照一定的速 率来抽样, 然后将幅度样本分层量化, 并使用代码来表示。
第7章 语音编码技术
? 如果你常常使用psmplay转换手机铃声,那么当被转化 的midi比较复杂的时候,它就会提示“分解和弦数超过 16...”同理,很多在电脑上听起来不错的曲子不经分解直 接传到手机上,效果就差了很多。你只要用好一点的 midi编辑软件看看就可以发现,一曲里面常常有很多相 同音色的音轨,每个音轨都是单音。
单8 单 11.025 立 22.050 立 44.1
48
样本 精度
8 8 16 16
数据率/s (未压缩)
64.0 88.2 705.6 1411.1 1536.0
第7章 语音编码技术
音频概述
音频:人耳可以感觉到的声音频率
– 20Hz ~ 20000Hz
语音和音乐是两类特殊的音频信号
– 语音是语言的载体,是对声音的抽象 – 音乐是符号化的声音
特点是波形幅度略大于无声段,波形无规则, 一般处于具有周期性波形的元音之前; – 元音:特点是波形幅度明显大于无声段,波形 具有周期性。
第7章 语音编码技术
频率特性
带宽有限 一般为20~3400Hz ,有限的带宽特性决定了可以用有限的奈奎 斯特取样速率,把语音信号离散化
功率谱密度
– 语音中不同频谱分量的平均概率可以用 长时平均谱密度来 表示。
第7章 语音编码技术
电子音乐 midi格式
(Musical Instrument Digital Interface)乐器数字接口
? 所谓电子音乐midi格式是记录每个音的音色、音名、响 度、角度、时间等,根据记录查询音色库,得到应发声 音。简单的说,每个音轨对应一种乐器,上面以特定的 格式记录每时刻该乐器所演奏的乐音。比如,在某时刻 被定义为钢琴的音轨上记录着上面所说的135组成的和弦, 那么芯片就查询音色库得到所对应的音效,然后合成、 播放。所以音色库是关系midi是否动听的关键因素,好 的音色库是很占地方的。
第7章 语音编码技术
语音信号的产生
语音信号的频谱分量300-3400Hz 语音信号的短时性 5-50ms 语音信号的最基本组成单位是音素,音素可以分为浊音和清
音,在短时分析的基础上可以判断一段语音属于哪一类
第7章 语音编码技术
波形特性
语音信号幅度动态范围一般最大为40分贝,实际由于说话人的 差别可以达到60~70分贝。
– 发辅音的情况:此时又分为鼻音、阻塞音和摩擦音三种。发鼻音时, 软腭下垂,鼻腔参加谐振响应(如发m,n等)。发阻塞音时,声道 的某部分构成阻碍而完全封闭,使声门来的激励波在此处形成高压 湍流,然后突然开放而发出声音来(如发p,t,k,b,d,g等)。发摩擦音 时,声道的某部分构成未完全封闭的阻碍,使激励波在此处形成高 速湍流,与该处产生摩擦而发出声音来。如发f,s,sh,x,h,r等。
移动通信对数字语音编码的要求如下:
– ·速率较低, 纯编码速率应低于 16 kb/s; – ·在一定编码速率下的音质应尽可能高 ; – ·编码时延要短 , 要控制在几十毫秒之内 ; – ·编码算法应具有较好的抗误码性能 , 计算量小,
性能稳定 ; – ·编码器应便于大规模集成。
Hale Waihona Puke 第7章 语音编码技术语音信号的产生模型
声道是由咽腔、鼻腔和口腔三个空气腔组成的,起于声门,止于两唇。一般成年 人声道长度大约为17cm左右,最大截面积可达20平方厘米左右。
长期研究证明,发不同性质的声音时,声道的情况是不同的。大致上可以分为两 大类:
– 发元音的情况:此时,声道的口腔为稳定的某种形状的谐振腔。由 声门来的准周期脉冲波激励它而产生响应。所有单元音、复元音以 及复鼻尾音的元音部分都属于这种情况。
第7章 语音编码技术
语音的特点
语音是由人类发音器官产生的、具有一定意义且能起到 社会交际作用的声音。 – 具有抽象表意性 – 频率通常在200Hz~4000Hz之间
第7章 语音编码技术
GSM移动电话原理框图
语音编码:用户的话音通过MIC转化成电信号,这个电信号通 过ADC转化成数字的、代表语音的13Kbitps的信息流。
第7章 语音编码技术
?CDMA系统移动台简化框图
第7章 语音编码技术
CDMA系统基站简化框图
第7章 语音编码技术
信源编、 解码
通信信源中的模拟信号主要是话音信号和图像信号, 而移动 通信中最多的信号是话音信号, 因而语音编码技术在数字移动通 信中具有相当重要的作用。语音编码技术可以直接影响到数字 移动通信系统的通信质量、频谱利用率和系统容量。
第7章 语音编码技术
2 语音信号特征
一段语音信号的演示(MatLab)
第7章 语音编码技术
用声音录制软件记录的英文单词“Hello”的语音实际波形
第7章 语音编码技术
? 语音信号波形是语音声波经过声-电转换器得到的连续时间 函数;波形图是语音幅度随时间变化的二维图。
? 波形以振幅随时间变化为特征,综合的表达了语音的全部 信息:包括语音的内容、音调、音质、相对音量变化等;
– 语音波形高频分量对语音总能量的贡献很小,但是高频分 量带有重要的语音信息,平均功率谱约在 250-500Hz处最 大,而高于此频率的功率谱约以每倍频程6~10dB下降。
–语音信号的短时频谱并不总是低通特性。辅音有较高的频 谱分量,显噪声特性;元音从总体上看是低通的,显示明 显的局部特性。
第7章 语音编码技术
第7章 语音编码技术
? 手机中记录音乐的方法与midi相同或相似。所记录的全是 单音,而复杂的和弦音效没有记录。既然如此,我们的手 机为何依然如此动听呢?既然不能在一架钢琴上同时按下 “135”,那么就分别在三架钢琴上同时按1、3、5不就可 以了,事实上手机和弦正是这样实现的,这样的和弦虽然 不如真正的和弦好听,但是从手机里放出来也就差不多乱 真了。这种把一件乐器上的和弦变成n件乐器单音的过程, 似乎被称为“和弦分解”。
– 发清音的情况。此时声道松弛而不振动,气流通 过声门直接进入声道。所有清辅音(汉语中除 m,n,l,r, 以外的声母),都属于这种情况。
第7章 语音编码技术
周期脉冲 发生器
随机噪声 发生器
语音信号的产生模型
Av 声门脉冲
模型
Au
声道模 型参数
声道 模型
辐射模型
语音 信号
第7章 语音编码技术
一种更精确的域音产生模型
·不稳定气流激励产生 ·持续时间较长 ·归零快
爆破音 – 特点是时长很短,仅有一两个脉冲,幅度大于无声段, 一般处于辅音前;
第7章 语音编码技术
? 语音信号具有很强的“时变特性” 在有些段落中它具有很强的周期性,有些段落中又具有噪声特性, 而且周期性语音和噪声语音也在不断变化之中。
? 语音信号是非平稳的,但具有“准平稳特性” 在较短的时间间隔内(一般20~200ms),可以认为语音信号的特征 基本保持不变。
第7章 语音编码技术
? 所以,一只16“和弦”的手机可以实现5种乐器同时发出 三和弦,而40“和弦”的手机可以让5种乐器同时发出七 和弦,或者13种乐器同时发出三和弦,或者.....“和弦” 数目越多,可能组合越多,音色就越丰富。这就是手机 “和弦”数目带来的声音效果差别所在。
第7章 语音编码技术
? 长期研究还证明,发不同性质的声音时,激励的情况也是 不同的,大致上可以分为两大类:
– 发浊音的情况:此时气流在通过绷紧的声带时, 激励声带产生振动,使得声门处形成准周期性的 脉冲串,并用它去激励声道。声道绷紧的程度不 同,震动的频率也不同,这个频率就是基调频率。 它的倒数就是基调周期。浊音不仅包括所有的元 音,还包括浊辅音(如,汉语中的擦音r,边音l, 鼻音m、n。在英语中,还有浊塞音b,d,g和浊擦音 j,q,z,zh等)
? 目前,国内市面上销售的手机,铃声大致可分为单音节铃 声、3和弦、4和弦、16和弦、32和弦、40和弦、64和弦等 铃声。单音和和弦音声音相差较大;4和弦铃声和16和弦 的声音都太单簿,差别也比较大,40和弦和32和弦的铃声 差别就不大了,而64和弦和40和弦就差别很大了。总之, 3和弦、4和弦是一个档次,16和弦是一个档次,32和弦、 40和弦是一个档次,64和弦是一个档次。
第7章 语音编码技术
第7章 语音编码技术
1 简介 2 语音信号特征 3 量化技术 4 APCM 5 子带编码 6 声码器
第7章 语音编码技术
话音编码,信息量大
信号类型
话音 AM FM
高质量音频
(CD,DAT)
频率范围
200-3400 50-7000 20-15k 20-20k
单/立 采样 频率 kHz
Av
FN
周期脉冲
发生器
Av
Au
F1
F2
F3
AK
随机噪声 发生器
AF
FK1
FK2
鼻音分支
口腔分支
F4
FN
擦音分支
第7章 语音编码技术
一、话音波形的特性
浊音:声带的振动产生准周期的声门脉冲激
励声道产生浊音;
·准周期脉冲激励发出 ·章节高度周期性 ·2-20ms之间
第7章 语音编码技术
清音:当气流在声道中受到阻碍时,产生湍流,此时生成清音。
第7章 语音编码技术
语音合成技术
目前,实现语音合成的途径可以分为两类:
先将原始的语言信号存储在机器中,需要时再重 现语音信号。
让机器象人类一样说话,模拟人的语言功能,完 成从内容到声音的实现过程。
目前的研究主要是按规则的文本 —语音转换,将 某种语言的书面语言转换为口头语言,即使计算机能 够朗读文章。这并不是简单的任务;为了合成高质量 的语音,除了依赖于各种规则,包括语义学规则、词 汇规则、语音学规则外,还要求必须对文章的内容有 很好的理解,还将涉及自然语言的理解问题。现有的 语音合成方法,大致可以分为三种类型:
元音幅度较大,有准周期性;清辅音幅度小,和噪声特性相似。 在长时间的语音信号中有相当多的无信号区间,即所谓的语音
寂静区间。 幅度概率密度函数以零幅和近似零幅的概率高,而幅度非常高
的情况概率很小。 长时平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布
和伽玛(Gamma)分布逼近。 对于短时幅度概率密度用高斯分布逼近就够了。
第7章 语音编码技术
移动通信中采用的语音编码方法 主要取决于无线 移动信道的条件 :
(1) 由于频率资源十分有限 , 因此要求编码信号的 速率较低 ; 由于移动信道的传播条件恶劣 , 因而编码算 法应有较好的抗误码特性。
(2) 另外, 从用户的角度出发 , 还应有较好的话音质 量和较短的时延。
第7章 语音编码技术