语音信号处理PPT_第三章_语音信号分析
合集下载
(完整)语音信号处理精品PPT资料精品PPT资料
![(完整)语音信号处理精品PPT资料精品PPT资料](https://img.taocdn.com/s3/m/344f051be009581b6bd9ebff.png)
❖ 特征参量评估方法 F比:在给定一种识别方法后,识别的效果主要取决于特征
参数的选取。对于某一维单个的参数而言,可以用F来表征 它在说话人识别中的有效性。
F 不 同 同 一 说 说 话 话 人 人 特 特 征 征 参 方 数 差 均 的 值 均 的 值 方 差 [x [ a (i)i i] ] 2 2 ia ,i
一个说话人识别系统的好坏是由 许多因素决定的。其中主要有正确 识别率(或出错率)、训练时间的 长短、识别时间、对参考参量存储 量的要求、使用者适用的方便程度 等,实用中还有价格因素。图10.3 表示了说话人辨别与说话人确认系 统性能与用户数的关系。
10.3应用DTW的说话人确认系统
一个应用DTW说话人识别系统如图10-4所示。它采用的识别 特征是BPFG(附听觉特征处理),匹配时采用DTW技术。
2. 动态时间规整方法(DTW)
将识别模板与参考模板进行时间对比,按照某种距离测度得出两个模板 之间的相似程度。常用的分法:基于最近邻原则的动态时间规整。
3. 矢量量化方法(VQ)
将每个人的特定文本训练成码本,识别时将测试文本按此码本进行编码, 以量化产生的失真度作为判决标准。优点:速度快,识别精度不低。
❖ 说话人识别特征的选取
在说话人识别系统中特征提取是最重要的一环,特征提取就 是从说话人的语音信号中提取出表示说话人个性的基本特征。
在理想情况下,选取的特征应当满足下述准则: ① 能够有效地区分不同的说话人,但又能在同一说话人的语音
发生变化时相对保持稳定。 ② 易于从语音信号中提取 ③ 不易被模仿 ④ 尽量不随时间和空间变化
10.4应用VQ的说话人识别系统
目前自动说话人识别的方法主要是基于参数模型的HMM的方 法和基于非参数模型的VQ的方法。应用VQ的说话人识别系 统如图10-5所示。
第三章-语音信号的特征分析讲解讲解学习
![第三章-语音信号的特征分析讲解讲解学习](https://img.taocdn.com/s3/m/0fd45b02f01dc281e53af064.png)
Magnitude (dB)
40 20
0 -20 -40 -60 -80 -100
0 50
Frequency domain
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
1 0.8 0.6 0.4 0.2
0 0
rectangular hamming hanning bartlett
50
100
150
200
250
❖ 几种不同的窗函数波形与频谱的比较
1
Hamming 0.8 哈明窗 0.6
Amplitude
0.4
0.2
0
1
Hanning 0.8
汉宁窗
0.6
Amplitude
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
பைடு நூலகம்
60
Samples
Magnitude (dB)
Magnitude (dB)
帧和加窗的概念
❖ 短时分析将语音流分为一段一段来处理,每一段称 为一“帧”;
3第三章 语音信号分析---时域分析 语音信号处理 课件
![3第三章 语音信号分析---时域分析 语音信号处理 课件](https://img.taocdn.com/s3/m/2b9965dd16fc700aba68fc86.png)
4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值 过于敏感。由于需要计算信号样值的平方和,在实 际应用中(如定点设备)很容易溢出。因此,一般 用平均幅度函数Mn来代替En。但这时,清音和浊 音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化,在每一时刻对xa(nT) 独立进行量化,把给定的幅度连续的信号变成为有限 多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号(在采样频 率为22050Hz的情况下,取20ms作为一 帧),短时过零率为46。
4/25/2021
《语音信号处理》课件
![《语音信号处理》课件](https://img.taocdn.com/s3/m/d3860966ae45b307e87101f69e3143323868f567.png)
《语音信号处理》PPT课件
目 录
• 语音信号处理概述 • 语音信号的采集与预处理 • 语音信号的特征提取 • 语音识别技术 • 语音合成技术 • 语音信号处理的发展趋势与挑战
01
语音信号处理概述
语音信号处理定义
01
语音信号处理是一门研究语音信 号采集、传输、分析和处理的技 术,旨在提高语音信号的质量、 识别率和传输效率。
在移动通信、视频会议等本流程
预处理
包括噪声抑制、回声消除、混 响消除等,以提高语音信号的
清晰度和可懂度。
特征提取
从语音信号中提取出反映语音 特征的信息,如音高、音强、 时长等。
模式匹配
将提取出的特征与预先训练好 的模型进行匹配,实现语音识 别或分类。
后处理
对识别结果进行优化或编辑, 以满足实际应用需求。
02
语音信号的采集与预 处理
语音信号的采集
01
02
03
采集设备
使用麦克风等声音采集设 备,将声音转换为电信号 ,以便后续处理。
采样率
采样率决定了语音信号的 精度,采样率越高,音质 越好,但数据量也越大。
量化精度
量化精度决定了声音的动 态范围和音质,常见的量 化精度有8位、16位等。
02
语音信号处理涉及的领域包括语 音合成、语音识别、语音增强、 语音编码等。
语音信号处理的应用领域
语音助手
如Siri、Alexa等,通过语音识别技术 将用户的语音转化为文字,再通过自 然语言处理技术理解用户的意图,实 现智能交互。
语音通信
语音娱乐
语音合成技术可以用于智能语音玩具 、电子宠物等领域,提供丰富的语音 交互体验。
目 录
• 语音信号处理概述 • 语音信号的采集与预处理 • 语音信号的特征提取 • 语音识别技术 • 语音合成技术 • 语音信号处理的发展趋势与挑战
01
语音信号处理概述
语音信号处理定义
01
语音信号处理是一门研究语音信 号采集、传输、分析和处理的技 术,旨在提高语音信号的质量、 识别率和传输效率。
在移动通信、视频会议等本流程
预处理
包括噪声抑制、回声消除、混 响消除等,以提高语音信号的
清晰度和可懂度。
特征提取
从语音信号中提取出反映语音 特征的信息,如音高、音强、 时长等。
模式匹配
将提取出的特征与预先训练好 的模型进行匹配,实现语音识 别或分类。
后处理
对识别结果进行优化或编辑, 以满足实际应用需求。
02
语音信号的采集与预 处理
语音信号的采集
01
02
03
采集设备
使用麦克风等声音采集设 备,将声音转换为电信号 ,以便后续处理。
采样率
采样率决定了语音信号的 精度,采样率越高,音质 越好,但数据量也越大。
量化精度
量化精度决定了声音的动 态范围和音质,常见的量 化精度有8位、16位等。
02
语音信号处理涉及的领域包括语 音合成、语音识别、语音增强、 语音编码等。
语音信号处理的应用领域
语音助手
如Siri、Alexa等,通过语音识别技术 将用户的语音转化为文字,再通过自 然语言处理技术理解用户的意图,实 现智能交互。
语音通信
语音娱乐
语音合成技术可以用于智能语音玩具 、电子宠物等领域,提供丰富的语音 交互体验。
语音信号处理课件__第03章时域分析
![语音信号处理课件__第03章时域分析](https://img.taocdn.com/s3/m/c5648b0079563c1ec5da71ec.png)
SNRdB 6.02B 4.77 20log10 (
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法 脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法 脉冲编码调制
一个数字信号取样之后,变成离散时间信号,接下来就是要用数字 方式来表示这个离散时间信号上的每个取样值。 一个电位波形会有固定的电压范围,一个取样值可以是在此电压范 围内的任何电位。如果只能用固定数目的位来表示这些取样值,那 么这些二进数字就只能代表固定的几个电位值,这个转换就是量化 (quantization),而转换之后只允许存在的几个电位值就是量化阶 数(quantization level)。 执行量化转换的硬件电路,就是量化器(quantizer)。以二进数字 表示的信号就是数字信号(digital signal),而这种将信号波形转 变成二进数字的方法,就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理 平滑滤波器:D/A后面的低通滤波器是平滑滤 波器,对重构的语音波形的高次谐波起平滑 作用,以去除高次谐波失真。 预加重:
现象:由于语音信号的平均功率谱受声门激励和口 鼻辐射的影响,高频端大约在800 Hz以上按6dB/ 倍频程跌落,为此要在预处理中进行预加重。 目的:提升高频部分,使信号的频谱变得平坦,以 便于进行频谱分析或声道参数分析。 位置:预加重可在A/D变换前的反混叠滤波之前进行, 这样不仅能够进行预加重,而且可以压缩信号的动 态范围,有效地提高信噪比。
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法 脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法 脉冲编码调制
一个数字信号取样之后,变成离散时间信号,接下来就是要用数字 方式来表示这个离散时间信号上的每个取样值。 一个电位波形会有固定的电压范围,一个取样值可以是在此电压范 围内的任何电位。如果只能用固定数目的位来表示这些取样值,那 么这些二进数字就只能代表固定的几个电位值,这个转换就是量化 (quantization),而转换之后只允许存在的几个电位值就是量化阶 数(quantization level)。 执行量化转换的硬件电路,就是量化器(quantizer)。以二进数字 表示的信号就是数字信号(digital signal),而这种将信号波形转 变成二进数字的方法,就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理 平滑滤波器:D/A后面的低通滤波器是平滑滤 波器,对重构的语音波形的高次谐波起平滑 作用,以去除高次谐波失真。 预加重:
现象:由于语音信号的平均功率谱受声门激励和口 鼻辐射的影响,高频端大约在800 Hz以上按6dB/ 倍频程跌落,为此要在预处理中进行预加重。 目的:提升高频部分,使信号的频谱变得平坦,以 便于进行频谱分析或声道参数分析。 位置:预加重可在A/D变换前的反混叠滤波之前进行, 这样不仅能够进行预加重,而且可以压缩信号的动 态范围,有效地提高信噪比。
语音信号处理ppt
![语音信号处理ppt](https://img.taocdn.com/s3/m/36bc2d7227d3240c8447efe4.png)
标准傅里叶变换不 能用 来直接表示语音信号,而 应该用短时傅里叶变换对
添 加 标 题
把和时序相关的傅里叶分析的显 示图形称为语谱图。语谱图 是一 种三维频谱,它是表示语音频谱
语音信号 的频谱进行分
析,相应的频谱称为“短 时谱”。
随时间变化的图形,其纵轴 为频
率,横轴为时间,任一给定频率 成分在给定时刻的强弱用相 应点 的灰度或色调的浓谈来表示。
升采样率(整数倍内插)的实现原 理,时域和频域的变化情况
TITLE TITLE
升采样率是指通过在对原离散信号的两个连续 样本间插入L-1个等距的样本值(不一定为零), 亦即抽样因子为L的上抽样。上抽样后的序列长 度为原来的L倍。
THANK YOU
——王少丹
1928
美国电信工程师H. 奈奎斯特推出采样 定理,因此称为奈 奎斯特采样定理。
1948
1924
1933
பைடு நூலகம்
信息论的创始人C.E.香农对这 一定理加以明确地说明并正式 作为定理引用,因此在许多文 献中又称为香农采样定理。采 样定理有许多表述形式,但最 基本的表述方式是时域采样定 理和频域采样定理。
采样定理
基本原理
人群 男声 女声 童声
基频分布 [50,180] [160,380] [400,1000]
共振峰频率分布 偏低 中 偏高
信号变声器的实现
进行频谱分析
2 1 3
进行滤波处理
4 5
语音信号恢复
6
语音信号读入
实现快慢放频率
改变基频变声
实现步骤
• • • • • • • • •
语音信号的录制与读入; 语音信号的频谱分析; 实现慢录快放和快录慢放功能; 设计数字滤波器和画出其频率响应; 用滤波器对信号进行滤波; 比较滤波器前后语音信号的波形及频谱; 通过搬移、改变基波频率实现变声; 语音信号恢复; 在 MATLAB 下绘制出各个部分的输出波 形,前后对比。
第三章_语音信号的特征分析
![第三章_语音信号的特征分析](https://img.taocdn.com/s3/m/333f39d387c24028905fc3a1.png)
浊音时能量集中于较低频率段内,具有较低的过 零率,而清音时能量集中于较高频率段内,具有 较高的过零率。
浊音和清音情况下典型的平均过零率的直方图
直方图的分布形状与高斯分布很吻合,而且浊音时 的短时平均过零率的均值为14过零/10ms,清音时 短时过零率的均值为47过零/10ms。注意到浊音和 清音有一个交叠区域,此时很难分清是浊音还是清 音,尽管如此,平均过零率仍可以粗略的判断清音 和浊音。
35语音信号的短时自相关函数假设一段加窗语音信号非零区间为n0n1的自相关函数称为语音信号的短时自相关函数自相关函数是偶函数在l0处取得最大值且值为短时能量如果sn是周期的则rl也是周期的且周期等于sn的周期36浊音和清音的自相关函数图浊音浊音清音37半周期错误2倍周期错误由自相关函数图判断浊音的周期38为了减少这种错误可以先将语音信号进行中心削波处理再求自相关函数39中心削波处理前后的语音信号及其自相关函数40短时自相关函数的特点浊音是周期信号浊音的短时自相关函数也呈现明显的周期性自相关函数的周期就是浊音信号的周清音接近于随机噪声请音的短时自相关函数不具有周期性且随着l的增大迅速减小
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏
数据率(kB/s) (未压缩)
频率范围
8
300~3400 Hz
浊音和清音情况下典型的平均过零率的直方图
直方图的分布形状与高斯分布很吻合,而且浊音时 的短时平均过零率的均值为14过零/10ms,清音时 短时过零率的均值为47过零/10ms。注意到浊音和 清音有一个交叠区域,此时很难分清是浊音还是清 音,尽管如此,平均过零率仍可以粗略的判断清音 和浊音。
35语音信号的短时自相关函数假设一段加窗语音信号非零区间为n0n1的自相关函数称为语音信号的短时自相关函数自相关函数是偶函数在l0处取得最大值且值为短时能量如果sn是周期的则rl也是周期的且周期等于sn的周期36浊音和清音的自相关函数图浊音浊音清音37半周期错误2倍周期错误由自相关函数图判断浊音的周期38为了减少这种错误可以先将语音信号进行中心削波处理再求自相关函数39中心削波处理前后的语音信号及其自相关函数40短时自相关函数的特点浊音是周期信号浊音的短时自相关函数也呈现明显的周期性自相关函数的周期就是浊音信号的周清音接近于随机噪声请音的短时自相关函数不具有周期性且随着l的增大迅速减小
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏
数据率(kB/s) (未压缩)
频率范围
8
300~3400 Hz
第3章 语音信号分析(全)
![第3章 语音信号分析(全)](https://img.taocdn.com/s3/m/8659030eba1aa8114431d98a.png)
x1 (n) x2 (n)
D
L
D
ˆ y ( n)
1
ˆ ˆ x1 (n) x2 (n)
ˆ ˆ y1 (n) y2 (n)
x(n)
ˆ x ( n)
y1 (n) y2 (n)
y(n)
b)同态系统的组成
D1
D 是特征子系统 L
是线性子系统
振 幅
· ·· · · · · ·· · ·· ·· ·
x(n)= x(nT):取样值 时间 采样周期(T)
第3章 语音信号分析
量化: 幅值方向的离散化
量化信噪比
SNR(dB) 6.02 B 7.2
其中,B表示量化字长 B=7bit时,SNR=35dB,可以满足一般通信系统 的要求。
Fn (k )
N k 1 m 0
x ( m) x ( m k )
n n
(0 k K )
第3章 语音信号分析
极小值
图3-9 与图3-5有相同语音段的AMDF函数的例子
第3章 语音信号分析
短时平均幅度差函数的作用 求语音序列的基音周期 用于区分语音中的清音段和浊音段
0 m N 1 K
m 0 ~ ( N 1 K ) m 其他值
第3章 语音信号分析
图3-6 修正短时自相关函数计算中窗口长度的说明
第3章 语音信号分析
3.3.4 短时平均幅度差函数
平均幅度差函数( AMDF) Average Magnitude Difference Function 短时平均幅度差函数的定义
语音信号处理PPT_第三章_语音信号分析
![语音信号处理PPT_第三章_语音信号分析](https://img.taocdn.com/s3/m/eb6e5d0f763231126edb11a2.png)
① ②
③
应用: 区分清音和浊音; 从背景噪声中找出语音信号,判断寂静无声段和有声段的起点和 终点位置; 当语音以某些音位开始或结尾时(弱摩擦音、弱爆破音、鼻音 等),过零率和短时平均能量一起结合使用,更为有效。
短时过零率分析
实际问题: 如果输入信号中包含有50Hz的工频干扰或者A/D转换器的工作点有 偏移(等效于输入信号有直流偏移),计算的过零率参数很不精 确。 解决方法: ① A/D转换器前的防混叠带通滤波器低端截止频率应高于50Hz,有 效抑制电源干扰。 ② 采用低直流漂移器件,也可以算出每一帧的直流分量并加以滤除。
3.2 数字化和预处理
语音信号的数字化一般包括放大及增益控制、反混叠滤波、 采样、A/D变换及编码(一般就是PCM码);如下图:
语音信号 带通滤 波器 自动增益控制 (AGC) 存入计算机 模/数转换 (A/D) 脉冲编码 调 制 ( PCM )
预处理一般包括预加重、加窗和分帧等。 分析和处理之前必须把要分析的要分析的语音信号部分从输 入信号中找出来,叫做语音信号的端点检测。
有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。 通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的 基音周期变化很大,所以N的选择比较困难。通常在10kHz取样频率 下,N折中选择为100~200点为宜(即10~20ms持续时间)。
3.3 语音信号的时域分析
语音信号的时域分析就是分析和提取语音信号的时域参数。 应用范围:常用于最基本的参数分析及应用,如语音的分割、预 处理、大分类等。 特点: ①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④只使用示波器等通用设备,使用较为简单等。
语音信号处理-第03章 语音信号的时域分析方法
![语音信号处理-第03章 语音信号的时域分析方法](https://img.taocdn.com/s3/m/4a766e777fd5360cba1adbdb.png)
t n
过零情况
3
1
短时平均过零的作用
• 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 • 2.从背景噪声中找出是否有语音,以及语 音的起点。
0 .8
0 .6
0 .4
0 .2
0
-0 . 2
-0 . 4
-0 . 6
-0 . 8
-1
0
50
100
150
200
250
∞
Z
0
1 ⎧ N −1 ⎫ = ⎨∑ sgn ⎡ s w ( n ) ⎤ − sgn ⎡ s w ( n − 1) ⎤ ⎬ ⎣ ⎦ ⎣ ⎦ 2 ⎩ n =1 ⎭
1
(4)短时自相关函数 Rw
R (l ) = ∑ s (l + n ) s (n ) = ∑ s (n ) s (n + l )
w n = −∞ w w n =0 w w
男声汉语拼音s的一帧信号(在采样频率为22050Hz 的情况下,取20ms作为一帧),清音的短时能量为 3.88。
二.短时过零率分析
• 过零率定义:信号跨越横轴的次数情况。 • 对于连续信号,观察语音时域波形通过 横轴的情况; • 对于离散信号,相邻的采样值具有不同 的代数符号,也就是样点改变符号的次 数。
10
采用中心削波法
⎧ x ( n) − T ⎪ y ( n) = c ( n) = ⎨ x ( n) + T ⎪ ⎩ 0
⎧ x( n) − T ⎪ y ( n) = c( n) = ⎨ x ( n) + T ⎪ 0 ⎩
x ( n) > T x(n) < −T | x(n) |≤ T
短时平均幅度差函数
过零情况
3
1
短时平均过零的作用
• 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 • 2.从背景噪声中找出是否有语音,以及语 音的起点。
0 .8
0 .6
0 .4
0 .2
0
-0 . 2
-0 . 4
-0 . 6
-0 . 8
-1
0
50
100
150
200
250
∞
Z
0
1 ⎧ N −1 ⎫ = ⎨∑ sgn ⎡ s w ( n ) ⎤ − sgn ⎡ s w ( n − 1) ⎤ ⎬ ⎣ ⎦ ⎣ ⎦ 2 ⎩ n =1 ⎭
1
(4)短时自相关函数 Rw
R (l ) = ∑ s (l + n ) s (n ) = ∑ s (n ) s (n + l )
w n = −∞ w w n =0 w w
男声汉语拼音s的一帧信号(在采样频率为22050Hz 的情况下,取20ms作为一帧),清音的短时能量为 3.88。
二.短时过零率分析
• 过零率定义:信号跨越横轴的次数情况。 • 对于连续信号,观察语音时域波形通过 横轴的情况; • 对于离散信号,相邻的采样值具有不同 的代数符号,也就是样点改变符号的次 数。
10
采用中心削波法
⎧ x ( n) − T ⎪ y ( n) = c ( n) = ⎨ x ( n) + T ⎪ ⎩ 0
⎧ x( n) − T ⎪ y ( n) = c( n) = ⎨ x ( n) + T ⎪ 0 ⎩
x ( n) > T x(n) < −T | x(n) |≤ T
短时平均幅度差函数
语音信号处理第3章分解PPT课件
![语音信号处理第3章分解PPT课件](https://img.taocdn.com/s3/m/c19ac85efab069dc5122019d.png)
14
预处理
2.窗口的长度 ❖ 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf
之间存在下列关系: Δf=1/NTs
语音信号
带通滤 波器
自动增益控 制(AGC)
模/数转换 (A/D)
脉冲编码
存入计算机
调制(PCM)
❖ 预处理一般包括预加重、加窗和分帧等。
5
预滤波、采样、A/D变换
预滤波的目的有两个: ❖ 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs)
为采样频率,以防止混叠干扰。 ❖ 抑制50Hz的电源工频干扰。
0n(N1) nelse
(n ) 0 .5 4 0 .4c6 0 ,o 2 n s /N ([ 1 )]0 , n n e (N l1 s ) e
12
预处理
1.窗口的形状 ❖ 好的窗函数的标准是:在时域因为是语音波形乘以
窗函数,所以要减小时间窗两端的坡度,使窗口边 缘两端不引起急剧变化而平滑过渡到零,这样可以 使截取出的语音波形缓慢降为零,减小语音帧的截 断效应;在频域要有较宽的3dB带宽以及较小的边 带最大值。这里只以典型的矩形窗和汉明窗为例进 行比较,其他窗口可参阅FIR数字滤波器或谱分析 的有关书籍。
但是在一个短时间范围内(一般认为在10-30ms的短时间
内),其特性基本保持不变即相对稳定,因而可以将其看作
是一个准稳态过程,即语音信号具有短时平稳性。
3
1 概述
❖ 根据所分析出的参数的性质的不同可以分为: 时域分析、频域分析、倒频域分析,线性预测分析等;
❖ 分析方法的不同: 模型分析方法 和 非模型分析方法
原信号值之间的差值称为量化误差,又称为量化噪声。 ❖ 若量化间隔Δ足够小,可以证明量化噪声符合具有下列特征
第3章 语音信号的模型ppt课件
![第3章 语音信号的模型ppt课件](https://img.taocdn.com/s3/m/931f5cd34693daef5ef73dd0.png)
声管中声传播特性与传输线中电流传播特性有很强的类比关系。
表3.1:声学量与电学量之间的类比关系。
表3.1 声学量 压力 p 体积速度 u 声感 ρ/A 声容A/(ρc2) 电压 v 电流 i 电感 L 电容 C 声学量与电学量之间物理量的类比 声学量 特性声阻抗 Z0= ρc/A 声激励角频率Ω 单位长度声阻抗粹Z=jΩρ/A 单位长度声导纳 Y=jΩA /(ρc2) 电学量 特性电阻抗 Z0 电激励角频率ω 复阻抗 Z 复导纳 Y 电学量
ZG IG U1
I1
图3.6
声门对应等效电路图
式中,U1(0,Ω) ——声门处的体积速度u1(0,t)的Laplace变换; P1(0,Ω) ——声门处的声压p1(0,t)的Laplace变换;
UG (Ω) ——等效体积速度源uG(t)的Laplace变换。
第2章
数字语音处理基础
3.2
语音信号的无损声管模型
该式与电学的欧姆定律相对应 (声压对应电压,体积速度对应电流)
c u ( t ) u ( t ) Z u ( t ) u ( t )
LN N N N
u ( t ) N
式中,kL——嘴唇处的反射系数, 1 1 1 k ( c A Zc ) ( A Z ) L N L N L ◆嘴唇处的体积速度为:
第 2章
数字语音处理基础
第 3章
语音信号的模型
语音模型化,便于数字处理。 对模型的要求:精确描述语音产生过程、尽可能地简单, 便于处理和实现。 已提出许多种不同的语音信号模型。 ◆线性模型:广泛使用级联无损声管模型和共振峰模型。 ◆理论基础:发音过程中声道处于运动状态,这种运动与语音信 号相比变化缓慢,故可用时变的线性系统来模拟。 ◆更精细分析时,发现语音中也存在较大的非线性现象, 某些应用需考虑这些因素对所研究问题的影响。 ◆非线性模型:有多种,调频-调幅模型受到广泛关注。 本章讨论:级联无损声管模型、共振峰模型、调频-调幅模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
En
xn (m )
2
m 0
T[x]=x2
短时能量及短时平均幅度分析
En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即 它对高电平非常敏感(因为它计算时用的是信号的平方)。为此, 可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度 N 1 函数Mn,它定义为:
M
n
xn (m )
它与12位线性转换器等效。
预处理
由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端 大约在800Hz以上按6dB /倍频程跌落,要在预处理中进行预加重 (Preemphasis)处理。 预加重目的: 提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整 个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参 数分析。 预加重可在语音信号数字化时在反混叠滤波器之前进行,不仅可 以进行预加重,而且可以压缩吸纳后的动态范围,有效提高信噪 比。 预加重一般在语音信号数字化之后,利用数字滤波器实现: 1 H (z) 1 z 值接近1。
S N R ( d B ) 6 .0 2 B 7 .2
x2 X S N R ( d B ) 1 0 lg 2 6 .0 2 B 4 .7 7 2 0 lg m a x e x
A/D转换器分为线性和非线性转换器两类。 目前的线性A/D转换器绝大部分是12bits的(即每一个采样 脉冲转换为12位二进制数)。非线性A/D转换器则是8位的,
n n
短时相关分析
右图中:N=401,Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。
短时相关分析
窗长N选择考虑因素: 估计均值(矩形窗)
E [ R n ( k )] (1 k N ) E [ x ( n ) x ( n k )]
预处理
进行过预加重数字滤波处 理后,接下来就要进行加 窗分帧处理。一般每秒的 帧数约为33-100帧,视实 际情况而定。分帧虽然可 以采用连续分段的方法, 但一般要采用如图3-1所 示的交叠分段的方法,这 是为了使帧与帧之间平滑 过渡,保持其连续性。 前一帧和后一帧的交叠部 分称为帧移。帧移与帧长 的比值一般取为0-1/2。
分类:
时域分析
简单、计算量小、 物理意义明确 感知特性 较好,更 为重要 依据语音信号 产生的数学模 型来分析和提 取表征这些模 型的特征参数 不进行模型化 分析
参数性质
频域分析 倒谱域分析 模型分析方法
分析方法
非模型分析方法
短时分析技术:
贯穿于语音分析的整个过程;语音信号从整体来看其特征 及表征其本质特征的参数均是随时间而变化的,所以它是一 个非平衡态过程,不能用处理平衡信号的数字信号处理技术对 其进行分析处理。 但是在一个短时间范围内(一般认为在10-30ms的短时间内), 其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳 态过程,即语音信号具有短时平稳性。 不论是分析怎么样的参数以及采用什么分析方法,在按帧进 行语音分析,提取语音参数之前,有一些经常使用的、共同的短 时分析技术必须预先进行,如语音信号的数字化、语音信号的端 点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号 析的关键技术。
预处理
窗口的长度: 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列关系: Δf=1/NTs ,采样周期一定时,Δf随窗口宽度N的增加而减小, 即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取 短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应 该根据不同的需要选择合适的窗口长度。
3.2 数字化和预处理
语音信号的数字化一般包括放大及增益控制、反混叠滤波、 采样、A/D变换及编码(一般就是PCM码);如下图:
语音信号 带通滤 波器 自动增益控制 (AGC) 存入计算机 模/数转换 (A/D) 脉冲编码 调 制 ( PCM )
预处理一般包括预加重、加窗和分帧等。 分析和处理之前必须把要分析的要分析的语音信号部分从输 入信号中找出来,叫做语音信号的端点检测。
预处理
分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用一定的窗函数ω(n)来乘s(n),从而形成加窗语音 信号sω(n)=s(n)* ω(n)。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等, 它们的表达式如下(其中N为帧长):
矩形窗:
1, (n) 0, 0 n ( N 1) n e ls e
Zn 1
2
N 1
s g n [ x n ( m )] s g n [ x n ( m 1)]
m 0
式中,sgn[]是符号函数,即
1, sgn[ x ] 1, ( x 0) ( x 0)
短时过零率分析
短时能量、平均幅度 和过零率都是随机参数, 概率密度函数如图:
① ②
③
应用: 区分清音和浊音; 从背景噪声中找出语音信号,判断寂静无声段和有声段的起点和 终点位置; 当语音以某些音位开始或结尾时(弱摩擦音、弱爆破音、鼻音 等),过零率和短时平均能量一起结合使用,更为有效。
短时过零率分析
实际问题: 如果输入信号中包含有50Hz的工频干扰或者A/D转换器的工作点有 偏移(等效于输入信号有直流偏移),计算的过零率参数很不精 确。 解决方法: ① A/D转换器前的防混叠带通滤波器低端截止频率应高于50Hz,有 效抑制电源干扰。 ② 采用低直流漂移器件,也可以算出每一帧的直流分量并加以滤除。
短时相关分析
一、短时自相关函数
定义: R ( k ) n
N 1 k
m 0
x
n
(m ) x n(m k )
0 k K
① ② ③
其中K最大的延迟点数。 性质: 如果 x n ( m ) 是周期的(Np),则自相关函数 R ( k ) R ( k N p ) R n ( k ) 是偶函数 ,即 R ( k ) R ( k ) n n 当k=0时,自相关函数有最大值,即 R n (0 ) R n ( k ) 并且 R n (0 ) 等于确定性信号序列的能量或随机序列的平均功率。
m0
① ② ③
Mn也是一帧语音信号能量大小的表征,它与En的区别在于计算时 小取样值和大取样值不会因取平方而造成较大差异,在某些应用 领域中会带来一些好处。 用途: 区分浊音段和清音段,浊音是En值比清音时大得多; 用来区分声母和韵母的边界,无声和有声的边界,连字的分界; 作为一种超音段信息,用于语音识别中。
汉明窗:
(n)
0 .5 4 0 .4 6 c o s [ 2 n / ( N 1)], 0,
0 n ( N 1) n e ls e
预处理
窗口的形状: 在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡 度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以 使截取出的语音波形缓慢降为零,减小语音帧的截断效应; 在频域要有较宽的3dB带宽以及较小的边带最大值。
短时能量及短时平均幅度分析
如图所示,设语音波形时域信号为x(t)、加窗分帧处理后得到的 第n帧语音信号为xn(m),则xn(m)满足下式:xn(m)=ω(m)x(n+m)
1, (m ) 0, m 0 ~ ( N 1) m 其它值
其中,n=0,1T,2T,…, 并且N为帧长,T为帧移长度。 设第n帧语音信号xn(m)的 短时能量用En表示,则其计 算公式如下: N 1
预滤波、采样、A/D转换
若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值, B表示量化字长, σe2表示噪声序列的方差,可以证明量化 信噪比SNR(信号与量化噪声的功率比)为: 假设语音信号的幅度符合Laplacian分布,此时信号幅度超 过4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则上 式表明量化器中的每bit字长对SNR的贡献为6dB。
窗长N越小,窗内基音 周期变化越小Rn(k) 估计不准,偏差大; 窗长N越大,窗内基音 周期性变 差;
短时相关分析
二、修正的短时自相关函数:
问题引出:传统的自相 关函数对窗长具有依赖性。 解决方法:用两个不同的窗 口,截取两个不等长的序列进行 卷积和,两个窗口的长度相差最大 N 1 的延迟数为K。定义: n ( k ) x n ( m ) x ' n ( m k ), 0 R
预滤波、采样、A/D转换
预滤波的目的有两个: 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样 频率),以防止混叠干扰。 抑制50Hz的电源工频干扰。 这样,预滤波器必须是一个带通滤波器,设其上、下截 止频率分别是fH和fL: 则绝大多数语音编译码器有: fH=3400Hz,fL=60-100Hz,fS=8kHz
预滤波、采样、A/D转换
语音信号经过预滤波和采样后,由A/D变换器变换为 二进制数字码。A/D变换中要对信号进行量化,量化不 可避免地会产生误差。量化后的信号值与原信号值之间 的差值称为量化误差,又称为量化噪声。若信号波形的 变化足够大,或量化间隔Δ足够小时,可以证明量化噪 声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密 度分布
有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。 通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的 基音周期变化很大,所以N的选择比较困难。通常在10kHz取样频率 下,N折中选择为100~200点为宜(即10~20ms持续时间)。