语音实验一端点检测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验一语音信号端点检测

一、实验目的

1.学会MATLAB 的使用,掌握MATLAB 的程序设计方法;

2.掌握语音处理的基本概念、基本理论和基本方法;

3.掌握基于MATLAB 编程实现带噪语音信号端点检测;

4.学会用MATLAB 对信号进行分析和处理。

5. 学会利用短时过零率和短时能量,对语音信号的端点进行检测。

二、实验仪器设备及软件

HP D538、MATLAB

三、实验原理

端点检测是语音信号处理过程中非常重要的一步,它的准确性直接影响到语音信号处理的速度和结果。本次实验利用短时过零率和短时能量相结合的语音端点检测算法利用短时过零率来检测清音,用短时能量来检测浊音,两者相配合便实现了信号信噪比较大情况下的端点检测。

算法对于输入信号的检测过程可分为短时能量检测和短时过零率检测两个部分。算法以短时能量检测为主,短时过零率检测为辅。根据语音的统计特性,可以把语音段分为清音、浊音以及静音(包括背景噪声)三种。在本算法中,短时能量检测可以较好地区分出浊音和静音。对于清音,由于其能量较小,在短时能量检测中会因为低于能量门限而被误判为静音;短时过零率则可以从语音中区分出静音和清音。将两种检测结合起来,就可以检测出语音段(清音和浊音)及静音段

1、短时能量计算

定义n 时刻某语言信号的短时平均能量En 为:

∑∑--=+∞∞--=-=n N n m m n w m x m n w m x En )1(22

)]()([)]()([

式中N 为窗长,可见短时平均能量为一帧样点值的平方和。特殊地,当窗函数为矩形窗时,有∑--==

n N n m m x En )1(2)(

2、短时过零率

过零就是指信号通过零值。过零率就是每秒内信号值通过零值的次数。

对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本的改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数。可以用相邻两个取样改变符号的次数来计算。

如果窗的起点是n=0,短时过零率Z 为

波形穿过横轴(零电平)的次数

|))1(())((|211

0∑-=--=N n w w n S Sgn n S Sgn Z {0

0,1,1)sgn(≥<-=x x x

短时过零可以看作信号频率的简单度量

浊音的短时平均幅度最大,无声的短时平均幅度最小,清音的短时过零率最大,无声居中,浊音的短时过零率最小。

3、短时自相关函数

∑--=+=1

)()()(k N n w

w w k n s n s k R ①是偶函数;

②s(n)是周期的,那么R (k )也是周期的;

③可用于基音周期估计和线性预测分析

4、判断语音信号的起点和终点

利用短时平均幅度和短时过零率可以判断语音信号的起点和终点。语音端点检测方法可采用测试信号的短时能量或短时对数能量、联合过零率等特征参数,并采用双门限判定法来检测语音端点,即利用过零率检测清音,用短时能量检测浊音,两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。低门限被超过未必是语音 的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音。

四、实验步骤及程序

(1) 实验步骤:

1、取一段录音作为音频样本。

2、利用公式分别编程计算这段语音信号的短时能量和短时过零率,然后分别画出它们

的曲线。

3、调整能量门限。

4、进行幅度归一化并设置帧长、短时能量阈值、过零率阈值等参数。

5、编写程序实现语音端点检测。

6、最后得到语音端点检测图像。

(2) 语音信号的端点检测程序流程图:

图 1.1 语音信号的端点检测程序流程图

(3) 语音信号的端点检测实验源程序:

clc;

clear;

[x,fs]=wavread('2.wav');

%%

[y] = end_point(x);

%%

% [f0] = pitch_sift(x,0.38,fs);

% plot(f0);

%%

e_x=(frame(x,'lpc_spectrum',fs));

%plot(e_x(2,:));%某一维随时间变化

plot(e_x(:,89));%一帧信号各维之间变化

hold on;

c=melcepst(x,fs);

plot(c(89,:),'k');

frame定义

% function [y] = frame(x,func,SAMP_FREQ,l,step)

% where y is output on a frame by frame basis, x is input speech,

% and l is the window size. l and step are optional parameters,

% by default SAMP_FREQ is 8000, l is 200, and step is 100.

% func is a string e.g. 'pitch' that determines a function that you want

% to apply to x on a short-time basis.

%

% Written by: Levent Arslan Apr. 11, 1994

%

function [yy] = frame(x,func,SAMP_FREQ,l,step)

[m,n]=size(x);

if m>n

n=m;

else

n=n;

x=x';

end

if nargin < 3, SAMP_FREQ=16000; end;

if nargin < 4, l=SAMP_FREQ/40; end;

if nargin < 5, step=l/2; end;

num_frames=ceil(n/step); %NUMBER OF FRAMES

x(n+1:n+2*l)=zeros(2*l,1); %ADD ZEROS AT THE END OF THE SPEECH SIGNAL

i=[0:step:num_frames*step]';%i is the arithmetical proportion series by step

j=i*ones(1,l);

i=j+ones(num_frames+1,1)*[1:l];

y=reshape(x(i),num_frames+1,l)';

y=(hanning(l)*ones(1,num_frames+1)).*y;

for i=1:num_frames

cmd=sprintf('yy(:,i)=%s(y(:,i));',func);

eval(cmd);

相关文档
最新文档