基于lpc的语音信号分析合成的参考资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于lpc 的语音信号分析合成
1.1语音信号的分帧
语音信号的一个重要特点:短时性,在某些适时段呈现出随机噪声的特性,
另外一些短时段呈现出周期信号的特征,还有二者的混合.语音信号的特征是随
着时间而变化的,只有在一段短的时间间隔中,语音信号才保持相对稳定一致的
特征.这段时间常取5~50ms .在程序中取256个采样点,对于8K的采
样频率,相当于32ms .帧间重叠为128个采样点,即16ms .
1.2端点检测
汉语的音节末尾都是浊音,只用短时能量就能较好地判断一个词语的末
点.当然,有时韵尾拖得长,衰减比较缓慢,有时韵尾衰减比较快,难免有点误
差.一般只要短时平均幅度值降低到该音节最大短时平均幅度的1/16左右以
后,就可以认为该音节已经结束.实际上截掉一点拖尾不会明显影响识别与合成
处理.因此汉语孤立词的末端点检测不存在什么困难.
汉语语音的起点检测不仅有一度难度,而且检测是否准确对语音识别性能影
响较大,因为大多数声母都是清声母,还有送气与不送气的塞音和擦音,将它们
与环境噪声分辨是比较困难的.
下面就介绍语音端点检测的相关技术:
1.2.1短时能量分析
对于信号)},({n x 短时能量的定义如下:
[]∑∑∞-∞=∞-∞==-=-=
m m n n h n x m n h m x m n w m x E ).(*)()()()()(222
n E 表示在信号的第n 个点开始加窗函数时的短时能量.
可看出短时能量可以看作语音信号的平方经过一个线性滤波器的输出.
短时分析原理
短时能量主要应用:
首先利用短时能量可以区分清音和浊音,因为浊音要比清音的能量大得多;
其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连
字分界等.
短时能量一般也作为特征中的一维参数来表示语音信号能量的大小和超音
段的信息.
短时能量由于是对信号进行平方运算.因而人为增加了高低信号之间的差距,
在一些应用场合不太适合.因此采用短时平均幅值来表示能量的变化.
∑∑∞-∞=-+==-=
m N n n m w n m x m n w m x M 1|)(|)(|)(|
下图为双门限端点检测法:
双门限端点检测
端点检测是指用数字处理技术找出语音信号中的各种段落(如音素,音节,
词素,词等)的开始点和终点位置,从语音信号中排除无声段.它就是从噪声中
检测出说话人的语音命令,获得语音开始和结束的时点.
下面用语音信号的短时能量和短时平均过零率来进行端点检测,如下图所示:
启动识别后,在内存中开辟一缓存区,存放10帧语音数据,求出能量门限
和过零率门限,然后用短时平均过零率检测开始点,用短时能量参数检测结束
点.当语音信号的连续几帧的过零率超过过零率门限,认为语音信号开始;如果
语音信号的连续几帧的平均能量低于能量门限,认为语音信号结束.
双门限前端检测算法
1.2.2加窗
因语音信号是一个时变信号,所以假设语音信号在10ms~30ms短时
平稳.
为了得到短时的语音信号,要对主意信号进行加窗操作.窗函数平滑地在语
音信号上滑动,将语音信号分成帧.分帧可以连续,也可以采用交叠分段的方法,
交叠部分称为帧移,一般为窗长的一半。
选择窗函数时,一般有两个问题要考虑:
(1)窗函数形状
矩形窗:⎩
⎨⎧-≤≤=else N n n w ,010,1)( 汉明窗(Hamming ):⎩
⎨⎧-≤≤--=e l s e N n N n n w ,010)],1/(2cos[46.054.0)(π 汉宁窗:⎩
⎨⎧-≤≤--=else N n N n n w ,010))],1/(2cos(1[5.0)(π 式中,N为窗口长度.
窗函数的频率响应都具有低通特性。
窗函数的形状非常重要,矩形窗的谱平滑性较好,但波形细节丢失,且会
产生泄漏现象;而汉明窗可以有效地克服泄漏现象,应用范围最为广泛。
(2)窗函数长度
窗函数的长度对能否反映语音信号的幅度变化起决定性作用。
(3)窗形选择
在语音识别中,加窗函数一般选择汉明窗。
1.2.3短时自相关函数
能量有限信号{x(n)}的自相关函数定义:
()()(),m R k x m x m k ∞=-∞=
⋅+∑
(2.7) 如果{x(n)}是随机或周期性的离散信号,不是能量有限的,则其自相关函数定义
为: 1()lim ()(),21N N m N R k x m x m k N →∞=-=⋅++∑ (2.8)
信号的自相关函数具有一些有用的性质:
(1)偶函数:R(k) = R(-k)。
(2)|()||(0)|,R k R ≤即零值后自相关值最大。
(3)若{x(n)}为能量有限信号,其能量即为R(0)。若{x(n)}为随机信号或周期信
号,则R(0)为其平均功率。
(4)如果{x(n)}是周期性信号,则R(k)也是周期性信号,并且其周期与{x(n)}相
同。
信号{x(n)}的短时自相关函数定义为:
()()()(()),n m R x m w n m x m k w n m k ∞
=-∞=
⋅-⋅+⋅-+∑
(2.9) ()()(),k m x m x m k h n m ∞=-∞=
⋅+⋅-∑
(2.10) 其中()()()k h n m w n w n k -=⋅-,直观的理解,Rn(k)就是在信号的第n 个样
本附近用短时创截取一段信号作自相关计算所得结果,短时自相关函数的作用:
1.区分清/浊音:浊音语音的自相关函数具有一定的周期性;清音语音的自相关函
数不具有周期性,类似噪声,有点如语音信号本身。
2.估计浊音语音信号的周期,即估计基音周期。
1.2.4基因周期
清音对应的自相关函数小,而浊音对应的自相关函数大,算出每一帧的自相
关函数,找出最大值,当最大值小于这一帧的能量的0.25倍的时候可判定这一
帧为清音,此时的基因周期为0;当最大值大于这一帧的能量的0.25倍的时候可
判定这一帧为浊音,此时的基因周期为最大值的下标。
1.4线性预测原理
通过使实际语音x(n)和线性预测结果x '(n)之间的误差e(n){e(n)=x(n)- x '(n)} 在某
个准则下达到最小值来决定唯一的一组预测系数ak 。
这组系数就能反映语音信号的特性,可以作为语音信号特征参数来用于语音
编码、语音合成和语音识别等应用中去。