四、语音信号的短时参数估计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、语音信号的短时参数估计
[一] 课程设计目的
了解语音信号的基本特点和随机信号分析在对其处理中的典型应用,掌握语音信号短时参数估计的原理和实现方法。
[二] 课程设计原理:
语音是人类相互之间交流时使用最多、最自然、最基本也是最重要的信息载体。在电子计算机日益应用广泛的今天,对语音信号的研究一般都基于语音信号的数字表示。
1、清音、浊音和爆破音
语音信号按其产生方式的不同可以分为三类:
1)浊音(V oiced Speech)。当气流通过声门的时候,如果声带的张力刚好使声带发生张驰振荡,产生一股“准周期”的气流,这一气流激励声带就产生浊音。
图一 浊音波形图
2)清音(Unvoiced Speech)。当声带通过声门时,如果声带不振动,而在某处收缩,迫使气流以高速通过这一收缩部分而产生湍流,这样就得到清音。
图二 清音波形图
3)爆破音(Plosive Speech)。如果声带完全闭合,在闭合后建立起气压,然后突然释放就得到爆破音。
2、基音周期
当发浊音时,气流通过声门使声带发生振动,产生准周期激励脉冲串。这个脉冲串的周期就称为“基音周期”,(pitch),其倒数称为“基音频率”。基音频率与个人的声带特性有很大关系,比如声带的长短,厚薄,韧性和发音习惯等,因此在很大程度上反映了说话人的个体特征。一般来说,成年男性话音的基音频率大致为50~200Hz,女性的基音频率在200~450Hz之间。
图三 男女声基音频率的波形曲线
汉语音节的声调主要体现在语音信号基音频率随时间变化的规律上。由于汉语是一种有调语言,声调携带的信息在汉语辨义中具有非常重要的作用。因此基音周期的提取和估计对以汉语为基础的语音信号研究更是有着重要作用。无论在说一个单音节或说一段连续语音时,各个音节中韵母段的基音频率都是随时间而变化的,基音频率的不同轨迹称为声调。下图就是汉语普通话四种声调的典型曲线(男性说话者)。
图四 汉语四种声调的典型曲线
3、语音信号的短时平稳性
语音信号从整体上来看表征其本质特征的参数都是随时间变化的,这一点可以从语音信号的时域幅度波形上看出,故语音信号是一个非平稳随机过程,不能用处理平稳随机信号的技术对其进行分析处理。
由于语音信号是由人的口腔内一系列肌肉运动构成的发声模型产生的,而口腔肌肉的这种运动相对于语音频率来说是非常缓慢的,故在一个短时间范围内(一般认为10~30ms),其特性基本保持不变,可以将其看作“准稳态随机过程”,这就是语音信号的“短时平稳性”。
任何语音信号的分析处理都必须建立在短时平稳的基础上,即进行“短时分析”:将语音信号分为一段一段来分析其特征参数。其中每一段称为一帧(frame),帧长一般取10~30ms。这样对于语音信号的整体而言,分析出的就是每一帧参数组成的特征参数时间序列。
[三] 课程设计的内容:
1. 对语音信号进行采样处理。用Windows操作系统自带的“录音机”工具,可得到采样
率为8kHz,8字位的离散化语音信号;
2. 用Matlab软件的wavread()函数,读出离散语音信号;
3. 对语音信号进行分帧处理。为方便运算,一般是取帧长为20ms(160点),帧移10ms(80
点)。
4. 对语音信号进行加窗处理。选择汉明窗或矩形窗。
5. 通过对语音信号时域波形的观察,判断清音、浊音的大概分布。
6. 求语音信号的基音周期。通过自相关函数法和直接观察浊音部分都可以得到。
7. 通过语音信号的基音周期的大小和变化,判断男声、女声,声调
8. 通过计算语音信号的短时能量和短时过零率来判断语音信号的起始点
思考问题
1. 对语音信号进行采样处理时,采样率选择8kHz够不够?
2. 对语音信号进行分帧处理时,为什么选择帧长为50ms?
3. 为什么选择汉明窗,而不是矩形窗?主瓣宽度大一倍,对外衰减也大一倍
参考资料
(1)赵力,《语音信号处理》,机械工业出版社,2003.4
(2)易克初,田斌,付强 《语音信号处理》,国防工业出版社,2006