东南大学语音信号处理期末考试复习总结(全面)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号处理是研究数字信号处理技术对语音信号进行处理的一门科学
语音:是声音和语言的结合体,是一连串的音组成的语言的声音。
人的说话过程:想说,说出,传送,接收,理解。
句法的最小单位是单词,词法的最小单位是音节。
语音特征:音色,音调,音强,音长。
语音音素:元音和辅音。辅音包括浊音(声带振动)和清音
共振峰:元音激励进入声道时引起共振特性,产生一组共振频率。
基音频率:浊音的声带振动的基本频率。
汉语是一种声调语言,声调具有辩义作用。
声调的变化就是浊音基音周期的变化。
汉语音节的一般结构:声带,韵母,声调
对发音影响最大的是声带。
基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。
语音听觉系统:耳:内耳(将机械信号转化为神经信号),中耳(声阻抗变换),外耳(声源定位和声音放大)。
掩蔽效应:在一个强信号附近,弱信号将变得不可闻。被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值。
掩蔽效应:同时掩蔽和短时掩蔽。同时掩蔽:存在一个弱信号和一个强信号频率接近,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度就会导致这个弱信号弱不可闻。短时掩蔽:当A声和B声不同时存在时也存在掩蔽作用,称为短时掩蔽。
语音信号生成的数学模型:激励模型(一般分为浊音激励和清音激励),声道模型(一般分为声管模型和共振峰模型,共振峰模型又分为三种:级联,并联,混合型),辐射模型。
浊音激励模拟成是一个以基音周期为周期的斜三角脉冲串。可以把清音模拟成随机白噪声。完整的语音信号的数学模型的传输函数H(z) = AU(z)V(z)R(z).一阶高通形式的R(z)=R0(1-z^(-1))把和时序相关的傅里叶分析的显示图形称为语谱图。语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形。
第三章:语音信号分析
1.参数性质不同:时域,频域,倒频域。分析方法:模型分析法(根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数)和非模型分析法(时域,频域,倒频域)。
2.数字化和预处理:数字化:带通滤波,增益控制,模数转换,编码调制。
预处理:预加重,加窗,分帧。
预滤波的目的(作用):①抑制高频分量,防止混叠干扰②抑制电源工频干扰
量化噪声特征:①平稳的白噪声②与输入信号不相关③等概率密度分布
预滤波器是一个带通滤波器,其上下截止频率分别为fh= 3400hz fl=60~100hz 采样频率为fs = 8khz
预加重数字滤波器一般是一阶的数字滤波器H(Z)=1-uz^(-1)
加窗,分帧的窗口的窗函数:要减小窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以减小语音帧的截断效应,在频域要有较宽的3db带宽以及较小的边带最大值。
采样周期,窗口长度,频率分辨率之间关系△f= 1/(NT),如果N很大,它等效于很窄的低通滤波器,语音信号通过时,反映波形细节的高频部分被阻碍,短时能量随时间变化很小,不能真实反映语音信号的幅度变化,反之,N太小时,滤波器的通带变宽,短时能量随时间有急剧变化,不能得到平滑的能量函数。
3.语音信号的时域分析:短时能量及短时平均幅度分析,短时过零率分析,短时相关分析
短时能量和平均幅度函数的主要用途:①区分浊音清音,浊音能量大 ②区分声母和韵母③作为超音段信息。
短时过零率分析:作用①区分浊音清音,清音具有较高的过零率。②利用短时过零率从背景噪声中找出语音信号。
浊音的短时平均幅度大,而短时过零率最低。清音的短时平均幅度居中而短时过零率最高,无声的短时平均幅度最低而短时过零率据居中。
浊音才具有基音周期。
短时平均幅度差函数和自相关函数有密切的关系,表达式
)]()0()[(2)(Fn k Rn Rn k k -=β^(1/2)
4语音信号的频域分析:傅里叶分析法。
5语音信号的倒谱分析:①线性预测分析②同态分析
同态信号处理:将非线性问题转化为线性问题。按被处理的信号由同态处理和卷积同态处理。 同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。 MEL 倒谱分析着眼于人耳的听觉特性。
6.线性预测分析:用过去的样点值来预测现在或未来的的样点值
线性预测分析的基本思想:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值。即一个语音的抽样能够用过去若干个语音抽样或他们的线性组合来逼近。
同时含有极点和零点:回归-滑动平均模型。全极点模型:回归模型。全零点模型:滑动平均模型。语音信号处理最常用的是全极点模型。
7.基音检测算法:自相关函数法,峰值提取算法,平均幅度差函数算法,并行处理技术,倒谱法,小波法。
在利用自相关函数估计基音周期时,第一要考虑的问题是加窗的问题,应使用矩形窗,窗长要大于两个基音周期。为了减小误差1.减少共振峰的影响2.对语音信号进行非线性变换后再求自相关函数。
8共振峰估计算法:带通滤波器组法,倒谱法,LPC 法
第四章:矢量量化技术
VQ 技术是20世纪70年代后期发展起来的一种数据压缩和编码技术。矢量量化广泛应用于语音编码 语音合成 语音识别和说话人识别
1基本原理:将若干个标量数据组成一个矢量,在多维空间给予整体量化。
2失真测度:最常用的是:欧氏距离测度,加权欧氏距离测度,Itakura -Saito 距离,似然比失真测度,识别失真测度。
失真测度是将输入矢量Xi 用码本重构矢量Yj 来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度。
3矢量量化器的码本设计:遵循的原则①最近临近准则②质心准则
4.求最佳码本的一种算法:LBG算法 步骤:
①设定码本和迭代训练参数②设定初始化值③将S分成J个子集
④计算总畸变⑤计算畸变改进量⑥计算新码本的码字⑦判断sigama 迭代条件⑧判断m 5初始码本的构造方法 ① 随机选取法②分裂法③链映射法④乘积码本法