第3章语音信号编码
第3章语音压缩编码1024
![第3章语音压缩编码1024](https://img.taocdn.com/s3/m/8a71e21c58fb770bf78a5572.png)
在语音信号的子带划分上,应考虑到各频段对主观听 觉贡献相等的原则做合理的分配,使低频段的子带宽度较 窄,高频段的子带宽度较宽。通常语音信号经带通滤波器 组滤波后分成4 ~ 6个子带,子带之间允许有小的间隙,如 图所示。
子带编码原理
• 在子带编码器的设计中,必须考虑子带数目、子带划分、
编码的参数、子带中的比特分配以及带宽等主要参数。
• 把发音看成是以语音速率传送,则语音编码的极 限速率为80bps
• 从数字化标准的编码速率64kbps,到极限速率 80bps之间的距离,压缩比可达64kbps/80bps=800
• 对于理论研究和实践有着极大的吸引力
压缩编码方法分类
• 波形编码
– 原理简单,失真小 – 数码率高
• 参数编码
– 数码率低 – 音质较差,复杂度高
反射系数
增益G
参数编码 c(n)
G
1
N
s 2 (i)
N i1
预加重:
• 提高语音谱中的高频共振峰,使语音频谱 较为平滑,从而提高谱参数估计的精确度
• 预加重滤波器的传递函数为利用短时平均幅度差函数(AMDF)计算
130
Fn (k) | xn (m) xn (m k) | m1
– 波形编码技术 – 参数编码技术
语音生成机构
• 声源:
– 声带
• 共鸣机构:
– 声道(鼻腔、口腔与舌头)
• 放射机构:
– 嘴唇或鼻孔
语音产生机理
• 浊音
– 气流通过声门时,声带的张力刚好使声带产生 张弛振荡式振动,产生一股准周期脉冲气流, 激励声道产生浊音
• 轻音
– 声带不振动,而在某处收缩,迫使气流高速通 过这一收缩部分产生湍流就产生清音
第三章-语音信号的特征分析讲解讲解学习
![第三章-语音信号的特征分析讲解讲解学习](https://img.taocdn.com/s3/m/0fd45b02f01dc281e53af064.png)
Magnitude (dB)
40 20
0 -20 -40 -60 -80 -100
0 50
Frequency domain
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
1 0.8 0.6 0.4 0.2
0 0
rectangular hamming hanning bartlett
50
100
150
200
250
❖ 几种不同的窗函数波形与频谱的比较
1
Hamming 0.8 哈明窗 0.6
Amplitude
0.4
0.2
0
1
Hanning 0.8
汉宁窗
0.6
Amplitude
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
பைடு நூலகம்
60
Samples
Magnitude (dB)
Magnitude (dB)
帧和加窗的概念
❖ 短时分析将语音流分为一段一段来处理,每一段称 为一“帧”;
语音信号处理第3章-语音信号分析
![语音信号处理第3章-语音信号分析](https://img.taocdn.com/s3/m/0979a7e15ef7ba0d4a733bfd.png)
0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
信息科学与工程学院 东南大学
预处理
窗函数的形状和长度对短时参数特征影响 很大 1.窗口形状
时域:要减小时间窗两端的坡度,使窗口边缘 两端不引起急剧变化而平滑过渡到零,这样可 以使截取出的语音波形缓慢降为零,减小语音 帧的截断效应; 频域:要有较窄的3dB带宽以及较大的旁瓣衰 减(较小的边带最大值)。这里只以典型的矩形 窗和汉明窗为例进行比较。
0
20
40
60
80
100
120
140
160
0.1 0.05 0 -0.05 -0.1
0
20
40
60
80 k = -21
100
120
140
160
信息科学与工程学院
东南大学
0.1 0.05 0 -0.05 -0.1
0
20
40
60
80
100
120
140
160
0.1 0.05 0 -0.05 -0.1
0
20
信息科学与工程学院 东南大学
矩形窗与汉明窗的比较
窗类型
矩形窗 汉明窗
旁瓣峰值
-13 -41
主瓣宽度
4π/N 8π/N
最小阻带衰减
-21 -53
汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增 加一倍,同时其带外衰减也比矩形窗大一倍多, 汉明窗比矩形窗更为合适。因此,对语音信号的 短时分析来说,窗口的形状是至关重要的。
信息科学与工程学院 东南大学
数字化和预处理
经过数字化和预处理过程,语音信号就已 经被分割成一帧一帧的加过窗函数的短时 平稳信号 对每一个短时语音帧,利用数字信号处理 技术来提取语音特征参数。
1多媒体技术第3章 语音编码
![1多媒体技术第3章 语音编码](https://img.taocdn.com/s3/m/41fc43d3360cba1aa811da91.png)
3.1.2 三种话音编译码器
图3-05 普通编译码器的音质与数据率
3.1.2 三种话音编译码器
1. 波形编译码器 波形编译码的想法是,不利用生成 话音信号的任何知识而企图产生一种重 构信号,它的波形与原始话音波形尽可 能地一致。一般来说,这种编译码器的 复杂程度比较低,数据速率在16 kb/s以 上,质量相当高。低于这个数据速率时, 音质急剧下降。
3.1.2 三种话音编译码器
2. 音源编译码器 音源编译码的想法是企图从话音波形信号 中提取生成话音的参数,使用这些参数通过话 音生成模型重构出话音。 针对话音的音源编译码器叫做声码器 (vocoder)。 在话音生成模型中,声道被等效成一个随时间 变化的滤波器,叫做时变滤波器(time-varying filter),它由白噪声—无声话音段激励,或者 由脉冲串——有声话音段激励。
第3章 话音编码
ITU-TSS为此制定了并且继续制定一系列 话音(speech)数据编译码标准。其中, G.711使用μ律和A律压缩算法,信号带宽为 3.4 kHz,压缩后的数据率为64 kb/s; G.721使用ADPCM压缩算法,信号带宽为3.4 kHz,压缩后的数据率为32 kb/s; G.722使用ADPCM压缩算法,信号带宽为7 kHz,压缩后的数据率为64 kb/s。 在这些标准基础上还制定了许多话音数据 压缩标准,例如G.723,G.723.1,G.728, G.729和G.729.A等。
3.1.2 三种话音编译码器
另一种频域波形编码技术叫做自适应变 换编码(adaptive transform coding, ATC)。这种方法使用快速变换(例如离散 余弦变换)把话音信号分成许许多多的频 带,用来表示每个变换系数的位数取决 于话音谱的性质,获得的数据率可低到 16 kb/s。
语音信号处理PPT_第三章_语音信号分析
![语音信号处理PPT_第三章_语音信号分析](https://img.taocdn.com/s3/m/3d32242b844769eae109ed0d.png)
3.2 数字化和预处理
➢ 语音信号的数字化一般包括放大及增益控制、反混叠滤波、
采样、A/D变换及编码(一般就是PCM码);如下图:
语音信号
带通滤 波器
自动增益控制 (AGC)
模/数转换 (A/D)
脉冲编码 调 制 ( PCM )
存入计算机
➢ 预处理一般包括预加重、加窗和分帧等。 ➢ 分析和处理之前必须把要分析的要分析的语音信号部分从输
② R n (是k )偶函数 ,即 Rn(k)Rn(k)
③ 当k=0时,自相关函数有最大值,即 Rn(0)Rn(k)
并且 等R于n (确0 ) 定性信号序列的能量或随机序列的平均功率。
短时相关分析
右图中:N=401, Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。
但是在一个短时间范围内(一般认为在10-30ms的短时间内), 其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳 态过程,即语音信号具有短时平稳性。
不论是分析怎么样的参数以及采用什么分析方法,在按帧进 行语音分析,提取语音参数之前,有一些经常使用的、共同的短 时分析技术必须预先进行,如语音信号的数字化、语音信号的端 点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号 析的关键技术。
语音信号分析在语音信号处理中具有举足轻重的地位。
分类:
参数性质
时域分析 频域分析 倒谱域分析
分析方法
模型分析方法 非模型分析方法
简单、计算量小、 物理意义明确
感知特性 较好,更 为重要
依据语音信号 产生的数学模 型来分析和提 取表征这些模 型的特征参数
不进行模型化 分析
第三章信源编码
![第三章信源编码](https://img.taocdn.com/s3/m/d516749551e79b8968022668.png)
1/8 0 256Δ 1/4 512Δ 1/2 1024Δ 1
2048Δ
1/128 1/64 16Δ 32Δ
1/32 64Δ
1/16 128Δ
1/8 256Δ
第一量化段间隔Δ1:
Δ2=Δ;Δ3=2Δ;Δ4=4Δ;Δ5=8Δ; Δ6=16Δ;Δ7=32Δ;Δ8=64Δ
1 ( 0) 1 128 1 16 2048
序号 量化值 范围 自然二进码 a1 a2 a3 7 6 5 +3.5 +2.5 +1.5 +3.0~+4.0 +2.0~+3.0 +1.0~+2.0 111 110 101 折叠二进码 b1 b2 b3 111 110 101
4
3 2 1 0
+0.5
-0.5 -1.5 -2.5 -3.5
0~1.0
非均匀量化信噪比的波动
(
32 29 26
S ) dB Nq
35 30 25 20 15 10 5
Li(dB)
-50 -40 -30 -20 -10 0
图5-1-11 n=7时A律13折线信噪比与输入电平关系
3.4 编码与解码
编码—将量化后的多电平值用二进制数表示。 码字—一个样值对应n位二进制数。 编码码型—编码时所遵循的规律(传输时有 传输码型)
脉冲编码调制使模拟信号数字化必须经过抽样、量化、 编码三个过程
低 x(t) 抽 样 PAM 量 化 编 码 PCM 信 道 PCM 解 码 通 滤 波 x`(t)
图5-1-1
PCM单向通信过程
抽样——将模拟信号在时间上离散(PAM)。 量化——对抽样后的信号在幅度上离散。 编码——将量化后的信号用二进制数代替(PCM)。 解码——将PCM信号还原为重建的PAM信号。 低通——在重建的PAM信号中取出低频模拟信号。 PAM——脉冲幅度调制
3章 语音编码与处理技术
![3章 语音编码与处理技术](https://img.taocdn.com/s3/m/85b8c61ca8114431b90dd8be.png)
第三章 话音编码多媒体技术多媒体技术第三章 话音编码与处理技术多媒体技术浙江工业大学信息学院 古辉gh@13.1 话音编码概要 3.2 脉冲编码调制(PCM) 3.3 增量调制与自适应增量调制 3.4 自适应差分脉冲编码调制 3.5 线性预测编码(LPC)的概念 3.6 GSM编译码器简介 3.7 语音合成 3.8 语音识别23.1 话音编码概要多媒体技术3.1 话音编码概要多媒体技术话音波形的特性话音分成三种类型:浊音(voiced sounds),清音 (unvoiced sounds)和爆破音(plosive sounds)。
浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所 发出的音,这种准周期脉冲是在声门打开然后关闭时中 断肺部到声道的气流所产生的脉冲。
清音是由不稳定气流激励所产生的,这种气流是在声门 处在打开状态下强制空气在声道里高速收缩产生的。
爆破音是在声道关闭之后产生的压缩空气然后突然打开 声道所发出的音。
不能归属到上述三种音中的任何一种音,称为混合音。
浊音段的波形举例浊音段的功率普密度举例3清音段的波形举例清音段的功率谱密度举例43.1 话音编码概要多媒体技术3.1 话音编码概要多媒体技术三种话音编译码器话音编译码器一般分成三种类型: 波形编译码器(waveform codecs)的话音质量高,但数 据率也很高; 音源编译码器(source codecs)的数据率很低,产生的 合成话音的音质有待提高; 混合编译码器(hybrid codecs)使用音源编译码技术和 波形编译码技术,数据率和音质介于它们之间。
图 普通编译码器的音质与数据率5 63.1 话音编码概要多媒体技术3.1 话音编码概要多媒体技术波形编译码器波形编译码的想法是,不利用生成话音信号的任何知识 而企图产生一种重构信号,它的波形与原始话音波形尽 可能地一致。
时域法(time domain approach)脉冲编码调制(pulse code modulation,PCM),它仅仅是 对输入信号进行采样和量化。
第3章编码及调制技术
![第3章编码及调制技术](https://img.taocdn.com/s3/m/3ab5945fa0116c175e0e4844.png)
码的检错、纠错能力与最小码距dmin的 关系分为以下三种情况: (1) 为检测e个错码,要求最小码距:
dmin≥e+1 (2) 为纠正t个错码, 要求最小码距:
dmin≥2t+1 (3) 为纠正t个错码,同时检测e个错码 ,要求最小码距:
dmin≥e+t+1 (e>t)
· 码重是码组中非零元素的数量。
? 在移动信道中,数字信号传输常出现成串的突发差错 ,因此,数字化移动通信中经常使用交织编码技术。
? 接收端:经参量译码分出参量、G、Tp、u/v,以这些参 数作为合成语声信号的参量,最后将合成产生的数字化 语声信号经D/A变换还原为语声信号。
3.1.5 IS-95语音编码(CELP)
? CELP(Code Excited Linear Prediction ,码激励 线性预测编码 )是一种混合编码方式,也是近 10年 来最成功的语音编码算法。 CELP语音编码算法用 线性预测提取声道参数,用一个包含许多典型的激 励矢量的码本作为激励参数,每次编码时都在这个 码本中搜索一个最佳的激励矢量,这个激励矢量的 编码值就是这个序列的码本中的序号。
· 混合编码是近年来提出的一类新的语音编码技 术,它将波形编码和参量编码结合起来,力图保持 波形编码的高质量的优点以及参量编码的低速率的 优点。 如码激励线性预测编码( CELP)。
· 混合编码是适合于数字移动通信的语音编码 技术。
3.1.2 语音编码技术的应用及发展
·语音编码技术首先应用于有线通信和保 密通信,其中最成熟的实用数字语音系统 是64kbit/s的PCM。这是一种典型的波形 编码技术,主要用于有线电话网,它的语 音质量好,可与模拟语音相比,达到网络 质量。
· 波 形 编 码 的 改 进 : 自 适 应 差 分 PCM (Adaptive Differential PCM,ADPCM)、 子带编码( Sub-Band Coding,SBC)、 自 适 应 变 换 编 码 ( Adaptive Transform Coding,ATC )、时域谐波压扩( Time Domain Harmonic Scaling,TDHS)等。
线性预测编码标准LPC-10_数字通信原理(第3版)_[共2页]
![线性预测编码标准LPC-10_数字通信原理(第3版)_[共2页]](https://img.taocdn.com/s3/m/da247dae1711cc7930b7160c.png)
第章 语音信号压缩编码 813发送到接收端。
在接收端,通过清浊音判决信号和基音周期来提供声门激励信号,并用频谱包络信号对其进行调制,经带通滤波器输出后叠加在一起就合成为输出语音信号。
通道声码器的主要缺点是需要进行基音检测和清浊音判决,而要精确地求出这两组数据是非常困难的,而且其误差会对合成语音的质量造成很大的影响。
此外,由于通道数量有限,可能几个谐波分量会落入同一个通道,在合成时它们将被赋予相同的幅度,结果会导致合成信号的频谱畸变。
3.共振峰声码器与通道声码器将语音信号划分成多个频段不同,共振峰声码器是对整体的语音信号进行分析,提取信号中共振峰的位置、幅度、带宽等参数,构成对应清音和浊音的两个声道滤波器。
清音滤波器一般采用1个极点和1个零点的数字滤波器;浊音滤波器采用全极点滤波器,由多个二阶滤波器级联而成。
如图3-23所示为共振峰声码器的合成器结构图。
其中共振峰、、是浊音滤波器的参数,极点1F 2F 3F p F 和零点为清音滤波器的参数,为基音频率,z F 0F u A 、v A 是清音和浊音增益系数。
图3-23 共振峰声码器的合成器结构图与通道声码器相比,共振峰声码器合成的语音质量较好,而且比特率可以压缩的更低。
共振峰声码器也只是对语音信号简单的划分为清音和浊音。
3.3.4 线性预测编码标准LPC-10美国的Homer Dudley 最早在1939年开发出了以滤波器为主的通道声码器。
20世纪60年代,Sato 、Itakura 和Atal 、Schroeder 将“线性预测编码(LPC )”技术应用到语音分析和合成中,研究出了实用的共振峰声码器;1966年,J.L.Flanagan 提出了以瞬时频率为基础的相位声码器;1969年,A.V .Oppenheim 提出了以倒谱为基础的同态声码器。
在众多的声码器中,以线性预测编码(LPC )为基础的声码器以其成熟的算法和参数的精确估计成为主流,并逐步走向实用。
第3章 移动通信中的编码和调制技术(3)
![第3章 移动通信中的编码和调制技术(3)](https://img.taocdn.com/s3/m/7b9b6e35376baf1ffc4fad60.png)
0
32/37
第3章 移动通信中的编码和调制技术
二、信道编码的分类:
移动通信系统中,常用到的信道编码: 奇偶校验码 重复码 循环冗余校验码 分组码 卷积码
33/37
第3章 移动通信中的编码和调制技术
1、奇偶校验码:
特点:编码速率较高; 只能发现奇数个错误,不能纠错。 编码过程: 把信源编码后的信息流分成等长码组; 在每一信息组之后加入一位校验码元。 奇校验:10110010 偶校验:10110010 101100101 101100100
信噪比
28/37
第3章 移动通信中的编码和调制技术
一、 信道编码原理(续)
信道编码是通过增加相关的冗余数据来提 高系统性能,也就是以增加传输带宽为代 价来取得编码增益的。
牺牲有效性 提高可靠性
29/37
第3章 移动通信中的编码和调制技术
信道编码:在发射机的基带部分,信道编 码器按照某种确定的约束规则,把一段数 字信息映射成另一段包含更多数字比特的 码序列,然后把已被编码的码序列进行调 制以便在无线信道中传送。 信道译码:接收机可以用信道编码的约束 规则来检测或纠正由于在无线信道中传输 而引入的一部分或全部的误码。 用于检测错误的信道编码称做检错编码; 可纠错的信道编码被称做纠错编码。
11/37
第3章 移动通信中的编码和调制技术
第3章 移动通信中的编码和调制技术
3.1 3.2 3.3 3.4 概述 编码技术 调制技术 扩频技术
12/37
第3章 移动通信中的编码和调制技术
第3章 移动通信的编码和调制技术
3.1 概述 3.2 编码技术
3.2.1 信源编码 3.2.2 信道编码 3.2.3 交织编码
第3章 语音信号的模型
![第3章 语音信号的模型](https://img.taocdn.com/s3/m/e963b96025c52cc58bd6be22.png)
骨螺旋板 前庭阶 中阶 鼓阶 蜗孔
覆膜
前庭阶 中阶 鼓阶 中阶 基底膜 耳蜗神经 鼓阶 前庭阶
骨质层
(a) 耳蜗(通过蜗轴的剖面) 图2.8 同济大学电子与信息工程学院 耳蜗示意图 赵晓群 教授 (b) 耳蜗横截面
- 9 -
第2章
数字语音处理基础
2.5
语音信号的特性分析
第 2 章
数字语音处理基础
2.5 语音信号的特性分析
语音信号的特性:主要是声学特性、语音时域和频谱特性、语 音信号的统计特性等。 2.5.1 语音的时间波形特性 语音信号可用 (a)时域波形 其时间波形表示, 观察波形可看出语音 信号的一些重要特性。 图2.26:汉语“同舟共 济”的时间波形。
同济大学电子与信息工程学院 赵晓群 教授
- 13 -
第2章
数字语音处理基础
2.5
语音信号的特性分析
语谱仪:记录语谱图的仪器。现代可用计算机完成。 语谱图:显示大量与语音特性有关的信息,它综合了频谱图和 时域波形的特点,明显地显示出语音频谱随时间的变化情况, 或者说是一种动态的频谱。 用语谱图可确定语音参数,例如共振峰频率及基音频率。 语谱图的纹路,称为“声纹”;因人而异,可用于讲话人识别。 图2.26:“同舟共济”的窄带和宽带语谱图。 语谱图中的花纹有横杠、 乱纹和竖直条等。
率,即基音频率,它是声门脉冲的间隔。
元音语音波形携带共振峰特性。 语音信号属于短时平稳信号, 10 ~ 30 ms内其特性基本不变,或者变化很缓慢。 可截取一小段语音进行频谱分析,得出语音的频域特性。
第3章声音2数字语音的压缩编码
![第3章声音2数字语音的压缩编码](https://img.taocdn.com/s3/m/c2a2ab71e518964bcf847c78.png)
通用性好,适用于任意类型的数字声音,
很成熟,有一系列国际标准:
CCITT G.711 PCM
64kb/s
CCITT G.721 ADPCM 32Kb/s
CCITT G.726 ADPCM 48, 32, 24, 16 Kb/s
已广泛应用于电话语音的中继线传输
2019/6/23
南京大学多媒体研究所
பைடு நூலகம்
优点: 压缩比较大
缺点: 信号源必须已知
示例: LPC
混合编码(Hybrid compression)
示例 : CELP
2019/6/23
南京大学多媒体研究所
7
三类语音编码器性能比较
语音质量
• 波形编译码器 优
(waveform codecs)
良
混合编码
波形编码
• 参数编译码器 中 差 (source codecs) 坏
南京大学多媒体研究所
23
2019/6/23
南京大学多媒体研究所
24
G.722: 64 kbps的声音子带编码
8000, 2bits
XH 高频带
传输 4-8kHz ADPCM
16 kbps
16kHz, 正交
编码器
14bits,
数字声音
镜象
8000, 6bits
滤波
器
XL
低频带 48 kbps
M U X
语音生成模型
语音生成模型
南京大学多媒体研究所
重建的 语音
27
语音生成过程(1)
空气由肺部呼出,经过声带,送入声道, 最后从嘴唇呼出,产生声音。
成年男子的声道平均长度约17cm,它 使声音信号具有短期相关性(持续时间1 ms左右)
第3章+数字声音编码(1)
![第3章+数字声音编码(1)](https://img.taocdn.com/s3/m/3d2cb914647d27284b7351e1.png)
人的听力
人耳对中频段1~3千赫的声音最为灵敏,对高、低 频段的声音,特别是低频段的声音则比较迟钝。
声音的主要研究领域
语音识别 将人类的语音中的词汇转换为计算机可读的输入
语音理解
让计算机知道人说的是什么
语音合成
让计算机能像我们人一样说话 比如从文本到声音
声音和语音的压缩
一些动物能感受的声音频率范围
Animal Elephant Dog Cat Bat Dolphin
Audible frequency range 05 – 12 000 Hz 40 – 45 000 Hz 45 – 85 000 Hz As high as 120 000 Hz As high as 200 000 Hz
SNR=10lg[(Vsignal)2/(Vnoise)2]=20lg(Vsignal/Vnoise)
其中,Vsignal表示信号电压,Vnoise表示噪声电压;
3.2.4 声音质量和数据率
表2–01 声音质量和数据率
质量
பைடு நூலகம்
采样频率 样本精度
(kHz)
(bit/s)
单道声/ 数据率(kB/s)
立体声
3.3 声音质量的MOS评分标准
声音质量的度量还有两种基本的方法:一种是客 观质量度量,另一种是主观质量度量。评价语音 质量时,有时同时采取两种方法评估,有时以主 观质量度量为主。
乐器数字接口(MIDI)
MIDI (Musical Instrument Digital Interface) 电子乐器数字接口,是在音乐合成器(music synthesizers)、乐器(musical instruments)和 计算机之间交换音乐信息的一种标准协议。
第三章-语音信号分析资料
![第三章-语音信号分析资料](https://img.taocdn.com/s3/m/184d644d15791711cc7931b765ce0508763275eb.png)
存在的问题
短时能量函数一个主要的问题是En对信号电平值 过于敏感。由于需要计算信号样值的平方和,在实 际应用中(如定点设备)很容易溢出。因此,一般 用平均幅度函数Mn来代替En。但这时,清音和浊 音、有声和无声的幅度差不如短时能量明显。
250
300
350
400
450
男声汉语拼音s的一帧信号(在采样频率为 22050Hz的情况下,取20ms作为一帧),清音 的短时能量3.88。
静音检测(VAD)和舒适噪声(CNG)的生成
VAD: Voice Activity Detection
CNG: Comfort Noise Generator
3.短时平均幅度函数和能量函数的作用
(1)区分清/浊音: En、Mn大,对应浊音; En、Mn小,对应清音。
(2)在信噪比高的情况下,能进行有声/无声判决 无声时,背景噪声的En、Mn小; 有声时,En、Mn显著增大。判决时可设置一个门限。
(3)大致能定出浊音变为清音的时刻,或反之。
1 0.8 0.6 0.4 0.2
x(n)
H(z)=1-z-1 x'(n)
2. 加窗分帧处理:
加矩形窗
第n帧 第n+1帧 第n+2帧 第n+3帧 第n+4帧
加汉宁窗 hanning
第n帧 第n+1帧 第n+2帧
t
各帧之间有0~1/2的重叠, 由窗函数的定义决定的。
《数字通信》-第3章-语音信号压缩编码-2
![《数字通信》-第3章-语音信号压缩编码-2](https://img.taocdn.com/s3/m/c2fdccabf524ccbff12184f6.png)
《数字通信》第3章语音信号压缩编码(2)复习语音压缩编码研究的基本问题是什么?能够进行语音信号压缩的依据是什么?DPCM的工作原理是什么?与DPCM相比,ADPCM增加了什么辅助措施? 子带编码的工作原理是什么?复习语音压缩编码所有码速率低于PCM编码比特率64kbit/s的语音编码技术。
研究的基本问题是如何尽可能降低语音编码所需要的比特率。
能够进行语音信号压缩的依据:语音信号在(1)时域、(2)频域和(3)人类听觉感知域存在多种多样的冗余。
语音编码分类:包括(1)波形编码、(2)参量编码和(3)混合编码。
语音质量评价:一般采用平均意见分MOS复习DPCM对差值序列进行量化编码的方法,传输的编码为样值与预测值之差 预测值为历史样值的线性和:ADPCM:为了进一步提高DPCM方式的质量,需要采取一些辅助措施,即自适应处理。
包括两方面:(1)自适应量化;(2)自适应预测。
1()()Nsi s s i S nT W S nT iT ==−∑内容1.同学PPT演示2.参量编码3.混合编码4.低速率语音压缩编码的应用1.同学PPT演示2.参量编码参量编码基本原理:根据对语音形成机理的分析,着眼于构造语音生成模型(对应为具有一定零极点分布的数字滤波器)发送的信息:语音生成模型的参数特点:编码比特率较低语音质量相对较差语音形成机理:音素分为两类:伴有声带振动的音称为浊音声带不振动的音称为清音浊音又称有声音。
语声发声时声带在气流的作用下激励起的准周期声波 基音频率范围内:50-250Hz能量集中在基音和基音的多次谐波频率附近清音又称无声音。
声带不振动,而是由气流引起的湍流。
没有周期性能量集中在比浊音更高的频率范围内浊音声压波形和频谱:周期性共振峰频率清音声压波形和频谱:非周期性语音信号产生模型:周期性信号:浊音激励源随机性型号:清音激励源G:增益控制线性预测编码(LPC)基本概念(1):基础:(1)语音信号具有慢变化特征:对大多数语音来说可以认为其激励源和声道的特性在10-20ms内保持不变(2)线性预测分析:用过去若干个语音抽样的线性组合来逼近当前语音抽样(3)系数确定原则:在给定的时间内,使e(n)的平方和最小100()()()()()(), 1ppre i i ppre i i x n a x n i e n x n x n a x n i a ==⎧=−−⎪⎪⎨⎪=−=−=⎪⎩∑∑线性预测编码(LPC)基本概念(2):与ADPCM区别:ADPCM传输预测残差,LPC传输预测系数ADPCM关注每个样值的绝对一致性,LPC关注每个短时内的主观一致性ADPCM传输每一个采样值的预测残差,LPC传输整个帧的预测系数参量编码的声码器:线性预测编码声码器:语音分为两大类:浊音和清音浊音模型:准周期脉冲序列清音模型:白色随机噪声激励开环方式传输参数:(共15个参量)(1)清/浊音判决u/v(2)基音周期TP(3)增益G(4)声道模型参数{ a} ---12个i线性预测编码声码器:线性预测编码(LPC)实现方框图通道声码器:带通滤波器组对输入信号进行滤波对每个滤波器,输出1个幅度谱均值,一组数据就反应了信号频谱的包络发送信号:频谱包络数据、清浊音判决和基音周期接收端:通过清浊音判决和基音周期提供声门激励信号,并用频谱包络信号对其进行调制,经带通滤波器输出后叠加在一起就合成为输出语音信号缺点:(1)需要进行基音检测和清浊音判决,而精确求出这两组数据非常困难,且其误差对合成语音质量影响较大(2)通道数有限导致可能多个谐波分量会落入同一个通道,在合成时它们被赋予相同的幅值,结果会导致合成信号的频谱畸变共振峰声码器:共振峰(formant):声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
PCM通信系统的构成
PCM通信系统由三个部分构成:模/数变换、信道部分、 数/模变换。 (1)模/数变换
包括抽样、量化、编码三步。 抽样:把模拟信号在时间上离散化,变为脉冲幅度调 制(PAM)信号。 量化:把PAM信号在幅度上离散化,变为量化值(共 有N 个量化值)。 编码:用二进码来表示 N个量化值,即把离散的幅度 值变换为数字信号。
11
低通型信号的抽样
抽样的实现
12
低通型信号的抽样
2、低通型信号的抽样定理
模拟信号的频率范围为 f 0 ∽ f M , B f M f0 f0 B 低通型信号(话音信号等) f0 B 带通型信号
抽样信号频谱的频率成分:
原始频带: f0 ∽ f M
nfs 的上、下边带
抽样频率: f s
1 T
5
PCM通信系统的构成
6
PCM通信系统的构成
(2)信道部分 信道部分包括传输线路及再生中继器。
再生中继器:消除叠加在信号上的噪声干扰,还原成 发送的数字信号。
7
PCM通信系统的构成
(3)数/模变换 接收端首先利用再生中继器消除数字信号中的噪
声干扰,然后进行数/模变换。数/模变换包括解码和低 通两部分。 解码——解码是编码的反过程,解码后还原为PAM信 号(假设忽略量化误差——量化值与PAM信号样值之差)。 低通——收端低通的作用是恢复或重建原模拟信号。
混合编码 在参量编码的基础上,引 子带编码 入一定的波形编码的特征。
2
PCM通信系统的构成
2、脉冲编码调制(PCM) 的概念 PCM——是对模拟信号的瞬时抽样值量化、编码,以将 模拟信号转化为数字信号。
由此构成的数 字通信系统称 为PCM通信系统。
瞬时抽样值
3
PCM通信系统的构成
3、PCM通信系统的构成
19 21 25
f(kHz)
18
低通型信号的抽样
小结: ➢为了避免样值序列频谱产生重叠,抽样频率要满足
的条件 fs 2 fM ;为了留有一定的防卫带 fs 2 fM
➢话音信号的 fs 8000 Hz T 125s
➢低通型抽样信号的频谱有原始频带、n倍抽样频率的 上、下边带。
19
带通型信号的抽样
《数字通信原理》 PCM通信系统的构成
PCM通信系统的构成
1、语音信号编码的概念及分类 语音信号的编码指的就是模拟话音信号的数字化。 语音信号的编码可分为三大类型。
类型
概念
典型示例
波形编码 根据语音信号波形的特点,PCM、DPCM、 将其转换为数字信号。 ADPCM等
参量编码 提取语音信号的一些特征 LPC等声码器 参量,对其进行编码。
01
5
f(kHz)
16
低通型信号的抽样
答: f0 1kHz, fM 5kHz, B fM f0 5 1 4kHz
∵ f0ห้องสมุดไป่ตู้ B
∴此信号为低通型信号
满足抽样定理时,应有 f s 2 f M 2 5 10kHz
17
低通型信号的抽样
FS(f)
01
一下
5
9
一上 11 15
二下 二上 …
2 fM n 1
fs
2 f0 n
若令n次下边带、(n+1)次下边带与原始频带间隔相等 (默认),则:
fs
2( f0 f M 2n 1
)
22
带通型信号的抽样
例:某模拟信号的频谱如下图所示,满足抽样定理时 其抽样频率应为多少?并画出其抽样信号的频谱。
23
带通型信号的抽样
答: f0 60kHz, fM 108kHz, B fM f0 108 60 48kHz
8
PCM通信系统的构成
9
PCM通信系统的构成
小结:
PCM通 信系统
发送端:模/数变换
●抽样 ●量化 ●编码
信道部分 ●传输线路 ●再生中继器
接收端:数/模变换
●解码 ●低通
低通型信号的抽样
1、抽样的概念及实现 抽样是每隔一定的时间间隔T抽取模拟信号的一个
瞬时幅度值(样值)。 模拟信号 在时间上离散化 PAM信号
带通型信号的抽样定理:
2 fM n 1
fs
2 f0 n
n
(
f0 B
)I
取整数
若带通型信号像低通型信号那样满足抽样定理,此时不 会产生折叠噪声,但是:
fM fs
fB
信道利用率
带通型信号的抽样信号频谱示意图如下图:
20
带通型信号的抽样
21
带通型信号的抽样
为了不产生折叠噪声,要求
nfs f0 f0 f M (n 1) f s f M
●话音信号频率范围:300∽3400Hz, fM , 3400 Hz fs 2 fM 6800 Hz 为了留有一定的防卫带
fs 8000 Hz T 125s
15
低通型信号的抽样
例:一模拟信号频谱如下图所示,求其满足抽样定理时
的抽样频率,并画出抽样信号的频谱(设 f s 2 f M )。
F(f)
13
F( f )
f
0
fM
原始频带 FS ( f )
一下 一上
二下 二上
f
s
2
…
f
M
f
0
fM fs fM fs fs fM
2 fs
FS折噪( 叠声f )
0
fM fs
fs fM
fs fM
fs 2 fM
f
14
低通型信号的抽样
●为在接收端准确地恢复原模拟信号,避免产生折叠
噪声,应满足抽样定理 fs 2 fM 为了留有一定的防卫带, fs 2 fM
f0 B
∴此信号为带通型信号
n(
f0 B
)
I
(
60) 48
I
1
满足抽样定理时,应有:
fs
2( f0 f M 2n 1
)
2(60 108) 211
112kHz
24
带通型信号的抽样
FS(f)
一下
04
52 60
二下
一上 …
108 116 164 172 220
f(kHz)
25
带通型信号的抽样
讨论: 低通型信号的抽样信号频谱与带通型信号的抽样信号 频谱的比较: ➢相同点——所含频率成分一样,包含原始频带,n倍 抽样频率的上、下边带。 ➢不同点——各频带的排列顺序不一样。
变换为幅度域上离散取值信号的过程。
例如:
1
2
3
4
5
6
7
8
13.2℃ 13.4℃ 13.8℃ 13.9℃ 14.4℃ 15.1℃ 15.6℃ 16.7℃
26
《数字通信原理》
量化的定义与均匀量化
复习
PCM通信系统(基带传输)
抽样:把模拟信号在时间上离散化,得到PAM信号。
28
复习
f(t) t
ST(t) t
T fs(t)
t
抽样后得到的样值序列: 1.4 2.9 2.6 1.5 0.7 1.3 1.4 1.7 1.9 2.1 ……
29
量化的定义
量化: 将幅度域上连续取值的信号(样值序列)