新语音信号处理实验指导2015年秋讲解

合集下载

语音信号处理实验指导书

《语音信号处理》实验指导书姚丽娜电子信息学院目录实验一语音信号的特征提取 (3)实验二语音信号的基音周期提取 (11)实验一语音信号的特征提取一、实验目的1、熟练运用MATLAB软件进行语音信号实验。

2、熟悉短时分析原理、MFCC、LPC的原理。

3、学习运用MATLAB编程进行MFCC、LPC的提取。

4、学会利用短时分析原理提取MFCC、LPC特征序列。

二、实验仪器设备及软件PC机、MATLAB三、实验原理1、MFCC语音识别和说话人识别中，常用的语音特征是基于Mel频率的倒谱系数（即MFCC）。

MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合。

Mel频率可以用如下公式表示：f=⨯+2595log(11/700)mel在实际应用中，MFCC倒谱系数计算过程如下;①将信号进行分帧，预加重和加汉明窗处理，然后进行短时傅里叶变换并得到其频谱。

② 求出频谱平方，即能量谱，并用M 个Mel 带通滤波器进行滤波；由于每一个频带中分量的作用在人耳中是叠加的。

因此将每个滤波器频带内的能量进行叠加，这时第k 个滤波器输出功率谱x'(k)。

③ 将每个滤波器的输出取对数，得到相应频带的对数功率谱；并进行反离散余弦变换，得到L 个MFCC 系数，一般L 取12~16个左右。

MFCC 系数为'1log ()cos[(0.5)/],1,2,,M k Cn x k k n M n L π==-=∑④ 将这种直接得到的MFCC 特征作为静态特征，再将这种静态特征做一阶和二阶差分，得到相应的动态特征。

2、 LPC由于频率响应H (e jw )反映声道的频率响应和被分析信号的谱包络，因此用 log │H （e jw ）│反傅里叶变换求出的LPC 倒谱系数。

通过线性预测分析得到的合成滤波器的系统函数1()1/(1)p i i i H z a z -==-∑，其冲击响应为()h n 。

()h n 的倒谱为()h n ∧，_^1()()n n H z h n z+∞∧-==∑就是说^()H z 的逆变换()h n ∧是存在的。

语音信号处理实验大纲

语音信号处理
一、实验课程名称：语音信号处理
二、实验课程英文名称： Speech signal processing
三、实验课程编号： 0451714
四、实验课程性质：非独立设课
五、学时安排：理论课程学时42 实验课程学时12
六、实验课程学分：0学分
七、实验课程类型：专业课
八、实验课程要求：必修课
九、课程适用专业：电子信息科学与技术
十、教学目的：
使学生掌握语音信号各种处理方法的原理、算法、用matlab的编程方法和仿真。

通过实际应用和亲身体验，加深对所学知识的理解，增强动手能力。

十一、实验教学项目表
实验课教学内容项目表（必做）
十一、实验报告要求：
1．编写程序；
2．验证调试实验并写出调试结果，需指导教师确认。

十二、实验成绩评定：
分数分配：
预习：10%，操作：60%，实验报告：60%，创新能力：10%；
实验总计6个，满分20分，第一和第二个实验每个4分，第三、四、五、六个实验每个3分。

十三、教材及参考书：
１．《语音信号处理》．胡航编著．哈尔滨工业大学出版社
２．《语音信号处理实验指导书》自编
学院签署意见表。

《语音信号处理》实验报告

.中南大学信息科学与工程学院语音信号处理实验报告指导老师：覃爱娜学生班级：信息0704学生名称：阮光武学生学好：0903070430提交日期：2010年6月18日实验一语音波形文件的分析和读取一、实验的任务、性质与目的本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。

通过实验：（1）掌握语音信号的基本特性理论：随机性，时变特性，短时平稳性，相关性等；（2）掌握语音信号的录入方式和*.WAV音波文件的存储结构；（3）使学生初步掌握语音信号处理的一般实验方法。

二、实验原理和步骤：WAV文件格式简介WAV文件是多媒体中使用了声波文件的格式之一，它是以RIFF格式为标准。

每个WAV文件的头四个字节就是“RIFF”。

WAV文件由文件头和数据体两大部分组成，其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。

常见的WAV声音文件有两种，分别对应于单声道（11.025KHz采样率、8Bit的采样值）和双声道（44.1KHz采样率、16Bit的采样值）。

采样率是指声音信号在“模拟→数字”转换过程中，单位时间内采样的次数；采样值是指每一次采样周期内声音模拟信号的积分值。

对于单声道声音文件，采样数据为8位的短整数（short int 00H-FFH）；而对于双声道立体声声音文件，每次采样数据为一个16位的整数（int），高八位和低八位分别代表左右两个声道。

WAV文件数据块包含以脉冲编码调制（PCM）格式表示的样本。

在单声道WAV文件中，道0代表左声道，声道1代表右声道；在多声道WAV文件中，样本是交替出现的。

WAV文件的格式见表1。

表1 wav文件格式说明表（1）选取WINDOWS下MEDIA中的任一WAV文件，采用播放器进行播放，观察其播放波形，定性描述其特征；（2）根据WAV文件的存储格式，利用MATLAB或C语言，分析并读取文件头和数据信息；（3）将文件的通道数、采样频率、样本位数和第一个数据读取并显示出来。

语音信号处理第7讲

s
Csn (t ) Cs (t ) Cn (t )
设 Csn (t ) 为整个带噪语音输入语句（共N帧）的倒谱平均值，由于每一帧噪声的倒谱相同，则有
1 N Csn (t ) Cs (t ) Cn (t ) N t 1 利用CMN法处理得到的增强语音的倒谱为
N 1 ˆ (t ) C (t ) C (t ) C (t ) C Cs (t ) s sn sn s N t 1
自适应滤波器：有效地在未知环境中跟踪实变的输入信号，使输出信号达到最优，其基本原理框图如下
r (t ) 与 s (t ) 无关，而与未知噪声
信号 n(t ) 相关自适应滤波器的实质在于实现带躁信号中的噪声估计，并用原始信号中去除估计噪声，达到语音增强的目的为最小的误差 (t ) 也就是降噪后的 s(t )
6.1 概述 6.2 语音特性、人耳感知特性及噪声特性 6.3 滤波器法 6.4 相关特征法 6.5 非线性处理法 6.6 减谱法 6.7 Weiner滤波法

语音增强：
指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。（即：从含噪语音中提取尽可能纯净的原始语音）
利用复数帧段主分量特征的降噪方法：鉴于来自环境的噪声具有帧间相关性小，能量分布频率范围广且数值小，在语音信号主分量特征中对应的贡献率交小的特点，可以利用复数帧段主分量特征来提高噪声环境下的抗噪性优点：既能起到降低噪声的作用，又能很好地解决输入特征参数矢量的维数增加导致的参数估计误差及计算量增大问题

噪声的度量——声压、声强和声功率：
① 声压级
P Lp 20lg P0 20 Pa P0 I LI 20lg I 0 1012 W m2 I0 W LW 20lg W0 1012 W W0

语音信号处理实验讲义

语⾳信号处理实验讲义语⾳信号处理实验讲义编写⼈：蔡萍时间：2011-12实验⼀语⾳信号⽣成模型分析⼀、实验⽬的1、了解语⾳信号的⽣成机理，了解由声门产⽣的激励函数、由声道产⽣的调制函数和由嘴唇产⽣的辐射函数。

2、编程实现声门激励波函数波形及频谱，与理论值进⾏⽐较。

3、编程实现已知语⾳信号的语谱图，区分浊⾳信号和清⾳信号在语谱图上的差别。

⼆、实验原理语⾳⽣成系统包含三部分：由声门产⽣的激励函数()G z 、由声道产⽣的调制函数()V z 和由嘴唇产⽣的辐射函数()R z 。

语⾳⽣成系统的传递函数由这三个函数级联⽽成，即()()()()H z G z V z R z =1、激励模型发浊⾳时，由于声门不断开启和关闭，产⽣间隙的脉冲。

经仪器测试它类似于斜三⾓波的脉冲。

也就是说，这时的激励波是⼀个以基⾳周期为周期的斜三⾓脉冲串。

单个斜三⾓波的频谱表现出⼀个低通滤波器的特性。

可以把它表⽰成z 变换的全极点形式121()(1)cTG z ez --=-?这⾥c 是⼀个常数，T 是脉冲持续时间。

周期的三⾓波脉冲还得跟单位脉冲串的z 变换相乘：1121()()()1(1)v cT A U z E z G z z e z ---=?=--这就是整个激励模型，v A 是⼀个幅值因⼦。

2、声道模型当声波通过声道时，受到声腔共振的影响，在某些频率附近形成谐振。

反映在信号频谱图上，在谐振频率处其谱线包络产⽣峰值，把它称为共振峰。

⼀个⼆阶谐振器的传输函数可以写成12()1ii i i A V z B z C z--=-- 实践表明，⽤前3个共振峰代表⼀个元⾳⾜够了。

对于较复杂的辅⾳或⿐⾳共振峰要到5个以上。

多个()i V z 叠加可以得到声道的共振峰模型12111()()11Rrr MMir i N ki i i ik k b zA V z V zB zC z a z -=---======---∑∑∑∑3、辐射模型从声道模型输出的是速度波，⽽语⾳信号是声压波。

语音信号处理实验指导书

语音信号处理实验指导书实验一：语音信号的采集与播放实验目的：了解语音信号的采集与播放过程，掌握采集设备的使用方法。

实验器材：1. 电脑2. 麦克风3. 扬声器或耳机实验步骤：1. 将麦克风插入电脑的麦克风插孔。

2. 打开电脑的录音软件（如Windows自带的录音机）。

3. 在录音软件中选择麦克风作为录音设备。

4. 点击录音按钮开始录音，讲话或唱歌几秒钟。

5. 点击停止按钮停止录音。

6. 播放刚刚录制的语音，检查录音效果。

7. 将扬声器或耳机插入电脑的音频输出插孔。

8. 打开电脑的音频播放软件（如Windows自带的媒体播放器）。

9. 选择要播放的语音文件，点击播放按钮。

10. 检查语音播放效果。

实验二：语音信号的分帧与加窗实验目的：了解语音信号的分帧和加窗过程，掌握分帧和加窗算法的实现方法。

实验器材：1. 电脑2. 麦克风3. 扬声器或耳机实验步骤：1. 使用实验一中的步骤1-5录制一段语音。

2. 将录制的语音信号进行分帧处理。

选择合适的帧长和帧移参数。

3. 对每一帧的语音信号应用汉明窗。

4. 将处理后的语音帧进行播放，检查分帧和加窗效果。

实验三：语音信号的频谱分析实验目的：了解语音信号的频谱分析过程，掌握频谱分析算法的实现方法。

实验器材：1. 电脑2. 麦克风3. 扬声器或耳机实验步骤：1. 使用实验一中的步骤1-5录制一段语音。

2. 将录制的语音信号进行分帧处理。

选择合适的帧长和帧移参数。

3. 对每一帧的语音信号应用汉明窗。

4. 对每一帧的语音信号进行快速傅里叶变换（FFT）得到频谱。

5. 将频谱绘制成图像，观察频谱的特征。

6. 对频谱进行谱减法处理，去除噪声。

7. 将处理后的语音帧进行播放，检查频谱分析效果。

实验四：语音信号的降噪处理实验目的：了解语音信号的降噪处理过程，掌握降噪算法的实现方法。

实验器材：1. 电脑2. 麦克风3. 扬声器或耳机实验步骤：1. 使用实验一中的步骤1-5录制一段带噪声的语音。

语音信号处理实验指导书汇编

数字语音信号处理实验指导书编写曹建荣山东建筑大学信息与电气工程学院2011年10月前言语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科，是目前发展最为迅速的信息科学研究领域的核心技术之一。

通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。

同时，语言也是人与机器之间进行通信的重要工具，它是一种理想的人机通信方式，因而可为信息处理系统建立良好的人机交互环境，进一步推动计算机和其他智能机器的应用，提高社会的信息化程度。

语音信号处理是一门新兴的学科，同时又是综合性的多学科领域和涉及面很广的交叉学科。

虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科，但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。

20世纪60年代中期形成的一系列数字信号处理的理论和算法，如数字滤波器、快速傅立叶变换（FFT）等是语音信号数字处理的理论和技术基础。

随着信息科学技术的飞速发展，语音信号处理取得了重大的进展：进入70年代之后，提出了用于语音信号的信息压缩和特征提取的线性预测技术（LPC），并已成为语音信号处理最强有力的工具，广泛应用于语音信号的分析、合成及各个应用领域，以及用于输入语音与参考样本之间时间匹配的动态规划方法；80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化（VQ）应用于语音信号处理中；而用隐马尔可夫模型（HMM）描述语音信号过程的产生是80年代语音信号处理技术的重大发展，目前HMM已构成了现代语音识别研究的重要基石。

近年来人工神经网络(ANN)的研究取得了迅速发展，语音信号处理的各项课题是促进其发展的重要动力之一，同时，它的许多成果也体现在有关语音信号处理的各项技术之中。

为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点，根据数字语音信号处理教学大纲，结合课程建设的需求，我们编写了本实验参考书。

语音信号处理实验指导书

语音信号处理实验指导书实验一语音信号采集与简单处理一、实验目的、要求（1）掌握语音信号采集的方法（2）掌握一种语音信号基音周期提取方法（3）掌握短时过零率计算方法（4）了解Matlab 的编程方法二、实验原理基本概念：（a ）短时过零率：短时内，信号跨越横轴的情况，对于连续信号，观察语音时域波形通过横轴的情况；对于离散信号，相邻的采样值具有不同的代数符号，也就是样点改变符号的次数。

对于语音信号，是宽带非平稳信号，应考察其短时平均过零率。

其中sgn[.]为符号函数⎪⎩⎪⎨⎧<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n))短时平均过零的作用 1.区分清/浊音：浊音平均过零率低，集中在低频端；清音平均过零率高，集中在高频端。

2.从背景噪声中找出是否有语音，以及语音的起点。

（b ）基音周期基音是发浊音时声带震动所引起的周期性，而基音周期是指声带震动频率的倒数。

基音周期是语音信号的重要的参数之一，它描述语音激励源的一个重要特征，基音周期信息在多个领域有着广泛的应用，如语音识别、说话人识别、语音分析与综合以及低码率语音编码，发音系统疾病诊断、听觉残障者的语音指导等。

因为汉语是一种有调语言，基音的变化模式称为声调，它携带着非常重要的具有辨意作用的信息，有区别意义的功能，所以，基音的提取和估计对汉语更是一个十分重要的问题。

∑--=-=1)]1(sgn[)](sgn[21N m n n n m x m x Z由于人的声道的易变性及其声道持征的因人而异，而基音周期的范围又很宽，而同—个人在不同情态下发音的基音周期也不同，加之基音周期还受到单词发音音调的影响，因而基音周期的精确检测实际上是一件比较困难的事情。

基音提取的主要困难反映在：①声门激励信号并不是一个完全周期的序列，在语音的头、尾部并不具有声带振动那样的周期性，有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。

哈尔滨工程大学语音信号处理实验报告讲述

实验报告实验课程名称：语音信号处理实验姓名：班级： 20120811 学号：Array指导教师张磊实验教室 21B#293实验时间 2015年4月12日实验成绩实验一语音信号的端点检测一、实验目的1、掌握短时能量的求解方法2、掌握短时平均过零率的求解方法3、掌握利用短时平均过零率和短时能量等特征，对输入的语音信号进行端点检测。

二、实验设备 HP 计算机、Matlab 软件三、实验原理 1、短时能量语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。

对于信号)}({n x ，短时能量的定义如下：∑∑∞-∞=∞-∞=*=-=-=m m n n h n x m n h m xm n w m x E )()()()()]()([2222、短时平均过零率短时平均过零率是指每帧内信号通过零值的次数。

对于连续语音信号，可以考察其时域波形通过时间轴的情况。

对于离散信号，实质上就是信号采样点符号变化的次数。

过零率在一定程度上可以反映出频率的信息。

短时平均过零率的公式为：∑∑-+=∞-∞=--=---=1)]1(sgn[)](sgn[21 )()]1(sgn[)](sgn[21N n nm w w m n m x m x m n w m x m x Z其中，sgn[.]是符号函数，即⎩⎨⎧<-≥=0)(10)(1)](sgn[n x n x n x3、端点检测原理能够实现这些判决的依据在于，不同性质语音的各种短时参数具有不同的概率密度函数，以及相邻的若干帧语音应具有一致的语音特性，它们不会在S 、U 、V 之间随机地跳来跳去。

要正确判断每个输入语音的起点和终点，利用短时平均幅度参数E 和短时平均过零率Z 可以做到这一点。

首先，根据浊音情况下的短时能量参数的概率密度函数)|(V E P 确定一个阈值参数H E ，H E 值一般定的较高。

当一帧输入信号的短时平均幅度参数超过H E 时，就可以判定该帧语音信号不是无声，而有相当大的可能是浊音。

语音信号处理作业15

语音信号处理技术发展历程和趋势201105034摘要：语音信号处理技术在国民经济、日常生活和军事领域有着极为重要的应用价值和极其广阔的应用空间。

本文介绍了语音信号处理的基本概念，发展历程及发展前景。

关键词：语音信号处理，语音识别,语音合成。

引言语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门交叉学科，涉及数字信号处理、语言学、心理学、计算机科学、模式识别和人工智能等。

语音信号处理主要研究如何更有效地产生、传输、存储、获取和应用语音信息，目的是让机器具有人的语言能力。

从基础理论和算法实现的研究方法来看有语音产生和语音感知，将语音作为一种信号进行处理，基于概率统计的方法，以及基于规则的方法。

语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。

只有通过语音信号等数字处理，语音信号的好坏、语音识别率的高低，都取决与语音信号处理的好坏。

因此，语音信号处理是一项非常有意义的研究（1）。

语音，即语言的声音，是语言符号系统的载体。

它是人的声音器官发出，负载着一定的语言意义。

语言依靠语音实现它的社会功能。

因此我们要对语音信号进行处理分析，优化人类通信交流。

近年来，随着语音信号处理技术的日益成熟，出现了新的基于语音识别的应用方向，如语音拨号、呼叫中心、移动设备中的嵌入式命令控制、发音学习以及基于关键词检出的口语会话系统等。

随着语音信号处理技术在实际生活中的应用的不断发展，语音信号处理技术已经被广泛地接受和使用。

由于语音比其他形式的交互方式具有更多的优势，因此这项技术已经越来越贴近人们的生活。

目前，语音信号处理技术处于蓬勃发展时期，不断有新的产品被研制开发，市场需求逐渐增加，具有良好的应用前景。

语音信号处理技术的研究历史及现状语音信号处理技术最早可追溯到17世纪，法国人研制了一个机械式的会说话装置。

1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来（2）。

语音信号处理实验报告

语音信号处理实验报告专业：电子信息工程班级：电子信息二班姓名：学号：指导教师：杨立东目录实验一特征提取 (3)一、实验目的： (3)二、实验原理： (3)三、实验内容 (3)程序： (3)实验二基音周期估计 (9)一、实验目的 (9)二、实验原理 (9)三、实验内容 (10)程序： (10)实验三倒谱的获取与应用 (13)一、实验目的 (13)二、实验原理 (13)三、实验内容 (14)程序 (14)实验四 HMM的训练 (17)一、实验目的 (17)二、实验原理 (17)三、实验内容 (17)程序 (17)实验总结 (20)实验一语音信号的特征提取一、实验目的：1、了解语音信号处理基本知识,语音信号的生成的数学模型。

2、理解和掌握语音信号的特征提取。

二、实验原理：语音信号随时间变化的频谱特性可以用语谱图直观的表示，语谱图的纵坐标对应频率，横坐标对应时间，而图像的黑白度对应于信号的能量。

因此声道的谐振频率在图上就表示成为黑带，浊音部分则以出现条纹图形为其特征，这是因为此时的时域波形有周期性，而在浊音的时间间隔内图形显得很致密。

三、实验内容Matlab编程实验步骤：1．新建M文件，扩展名为“.m”，编写程序；2．选择File/Save命令，将文件保存在F盘新建文件夹中；3．运行程序；程序：语谱图clear all;[x,sr]=wavread('welcome.wav'); %sr为采样频率if (size(x,1)>size(x,2)) %size(x,1)为x的行数，size(x,2)为x的列数 x=x';ends=length(x);w=round(44*sr/1000); %窗长,取离44*sr/100最近的整数n=w; %fft的点数ov=w/2; %50%的重叠h=w-ov;% win=hanning(n)'; %哈宁窗win=hamming(n)'; %哈宁窗c=1;ncols=1+fix((s-n)/h); %fix函数是将(s-n)/h的小数舎去d=zeros((1+n/2),ncols);for b=0:h:(s-n)u=win.*x((b+1):(b+n));t=fft(u);d(:,c)=t(1:(1+n/2))';c=c+1;endtt=[0:h:(s-n)]/sr;ff=[0:(n/2)]*sr/n;imagesc(tt/1000,ff/1000,20*log10(abs(d)));colormap(gray);axis xyxlabel('时间/s');ylabel('频率/kHz');时间/s频率/k H z246810121416x 10-40246810时间/s频率/k H z0246810121416x 10-4246810预加重(高频提取)[x,sr]=wavread('mmm.wav'); %读数据ee=x(200:455); %选取原始文件e 的第200到455点的语音,也可选其他样点 r=fft(ee,1024); %对信号ee 进行1024点傅立叶变换 r1=abs(r); %对r 取绝对值 r1表示频谱的幅度值 pinlv=(0:1:255)*8000/512 %点和频率的对应关系 yuanlai=20*log10(r1) %对幅值取对数signal(1:256)=yuanlai(1:256);%取256个点，目的是画图的时候，维数一致 [h1,f1]=freqz([1,-0.98],[1],256,4000);%高通滤波器 pha=angle(h1); %高通滤波器的相位 H1=abs(h1); %高通滤波器的幅值 r2(1:256)=r(1:256)u=r2.*h1' % 将信号频域与高通滤波器频域相乘相当于在时域的卷积 u2=abs(u) %取幅度绝对值 u3=20*log10(u2) %对幅值取对数un=filter([1,-0.98],[1],ee) %un 为经过高频提升后的时域信号 figure(1);subplot(211);plot(f1,H1);title('高通滤波器的幅频响应'); xlabel('频率/Hz'); ylabel('幅度');subplot(212);plot(pha);title('高通滤波器的相位响应'); xlabel('频率/Hz');ylabel('角度/radians');figure(2);subplot(211);plot(ee);title('原始语音信号'); xlabel('样点数'); ylabel('幅度');axis([0 256 -0.1 0.1]);subplot(212);plot(real(un)); title('经高通滤波后的语音信号'); xlabel('样点数'); ylabel('幅度'); axis([0 256 -1 1]);figure(3);subplot(211);plot(pinlv,ee);title('原始语音信号频谱'); xlabel('频率/Hz'); ylabel('幅度/dB');subplot(212);plot(pinlv,u3);title('经高通滤波后的语音信号频谱'); xlabel('频率/Hz'); ylabel('幅度/dB');05001000150020002500300035004000-50510x 10-3原始语音信号频谱频率/Hz幅度/d B05001000150020002500300035004000-80-60-40-20经高通滤波后的语音信号频谱频率/Hz幅度/d B50100150200250-0.1-0.0500.050.1原始语音信号样点数幅度50100150200250-1-0.500.51经高通滤波后的语音信号样点数幅度05001000150020002500300035004000-50510x 10-3原始语音信号频谱频率/Hz幅度/d B05001000150020002500300035004000-80-60-40-20经高通滤波后的语音信号频谱频率/Hz幅度/d B短时能量[x,sr]=wavread('welcome.wav'); %读入语音文件 %计算N=50，帧移=50时的语音能量 s=fra(50,50,x);s2=s.^2; %一帧内各样点的能量 energy=sum(s2,2); %求一帧能量subplot(2,2,1) %定义画图数量和布局plot(energy); %画N=50时的语音能量图xlabel('帧数') %横坐标ylabel('短时能量 E') %纵坐标legend('N=50') %曲线标识axis([0,1500,0,2*10]) %定义横纵坐标范围%计算N=100，帧移=100时的语音能量s=fra(100,100,x);s2=s.^2;energy=sum(s2,2);subplot(2,2,2)plot(energy) %画N=100时的语音能量图xlabel('帧数')ylabel('短时能量 E')legend('N=100')axis([0,600,0,4*10]) %定义横纵坐标范围%计算N=400，帧移=400时的语音能量s=fra(400,400,x);s2=s.^2;energy=sum(s2,2);subplot(2,2,3)plot(energy) %画N=400时的语音能量图xlabel('帧数')ylabel('短时能量 E')legend('N=400')axis([0,150,0,1.5*10^2]) %定义横纵坐标范围%计算N=800，帧移=800时的语音能量s=fra(800,800,x);s2=s.^2;energy=sum(s2,2);subplot(2,2,4)plot(energy) %画N=800时的语音能量图xlabel('帧数')ylabel('短时能量 E')legend('N=800')axis([0,95,0,3*10^2]) %定义横纵坐标范围定义fra()function f=fra(len,inc,x)fh=fix(((size(x,1)-len)/inc)+1);f=zeros(fh,len);i=1;n=1;while i<=fhj=1;while j<=lenf(i,j)=x(n); j=j+1;n=n+1; endn=n-len+inc; i=i+1; end5001000150005101520帧数短时能量 EN=50200400600010203040帧数短时能量 EN=100050100150050100150帧数短时能量 EN=400204060800100200300帧数短时能量 EN=800短时平均过零率clear all[x1,sr]=wavread('welcome.wav'); %读入语音文件 x=awgn(x1,15,'measured');%加入15dB 的噪声 s=fra(220,110,x);%分帧，帧移110 zcr=zcro(s);%求过零率 figure(1); subplot(2,1,1) plot(x);title('原始信号'); xlabel('样点数'); ylabel('幅度');axis([0,300,-2*10,2*10]); subplot(2,1,2) plot(zcr);xlabel('帧数'); ylabel('过零次数');title('原始信号的过零率');axis([0,360,0,200]); 定义zcro()function f=zcro(x)f=zeros(size(x,1),1); %生成全零矩阵 for i=1:size(x,1)z=x(i,:); %提取一行数据 for j=1:(length(z)-1); if z(j)*z(j+1)<0; f(i)=f(i)+1; end end end50100150200250300-20-1001020原始信号样点数幅度50100150200250300350050100150200帧数过零次数原始信号的过零率实验二基音周期估计一、实验目的在理论学习的基础上，进一步的理解和掌握基音周期估计中两种最基本的方法：基于短时自相关法和基于短时平均幅度差法。

语音信号处理实验报告

一、实验目的1. 理解语音信号处理的基本原理和流程。

2. 掌握语音信号的采集、预处理、特征提取和识别等关键技术。

3. 提高实际操作能力，运用所学知识解决实际问题。

二、实验原理语音信号处理是指对语音信号进行采集、预处理、特征提取、识别和合成等操作，使其能够应用于语音识别、语音合成、语音增强、语音编码等领域。

实验主要包括以下步骤：1. 语音信号的采集：使用麦克风等设备采集语音信号，并将其转换为数字信号。

2. 语音信号的预处理：对采集到的语音信号进行降噪、去噪、归一化等操作，提高信号质量。

3. 语音信号的特征提取：提取语音信号中的关键特征，如频率、幅度、倒谱等，为后续处理提供依据。

4. 语音信号的识别：根据提取的特征，使用语音识别算法对语音信号进行识别。

5. 语音信号的合成：根据识别结果，合成相应的语音信号。

三、实验步骤1. 语音信号的采集使用麦克风采集一段语音信号，并将其保存为.wav文件。

2. 语音信号的预处理使用MATLAB软件对采集到的语音信号进行预处理，包括：（1）降噪：使用谱减法、噪声抑制等算法对语音信号进行降噪。

（2）去噪：去除语音信号中的杂音、干扰等。

（3）归一化：将语音信号的幅度归一化到相同的水平。

3. 语音信号的特征提取使用MATLAB软件对预处理后的语音信号进行特征提取，包括：（1）频率分析：计算语音信号的频谱，提取频率特征。

（2）幅度分析：计算语音信号的幅度，提取幅度特征。

（3）倒谱分析：计算语音信号的倒谱，提取倒谱特征。

4. 语音信号的识别使用MATLAB软件中的语音识别工具箱，对提取的特征进行识别，识别结果如下：（1）将语音信号分为浊音和清音。

（2）识别语音信号的音素和音节。

5. 语音信号的合成根据识别结果，使用MATLAB软件中的语音合成工具箱，合成相应的语音信号。

四、实验结果与分析1. 语音信号的采集采集到的语音信号如图1所示。

图1 语音信号的波形图2. 语音信号的预处理预处理后的语音信号如图2所示。

语音信号处理课程实验教学大纲

《语音信号处理》课程实验教学大纲课程编号： 13006430 一、实验教学的目的通过实验，加深对语音信号处理基本概念的理解，学习语音信号处理的编程和处理方法。

二、实验教学任务1、掌握VC编程方法处理语音信号。

2、掌握改变参数对语音信号处理的差别。

三、具体实验项目名称、学时分配、适用专业及实验性质四、单项实验的内容、要求实验内容：实验一：语音信号的低通滤波和短时分析综合实验。

1.给出语音信号，要求设计一个低通滤波器，带宽为采样频率的四分之一，求输出信号；2.辨别原始语音信号与滤波器输出信号有何区别，说明原因；3.改变滤波器带宽，重复滤波实验，辨别语音信号的变化，说明原因；4.利用矩形窗和汉明窗对语音信号进行短时傅立叶分析，绘制语谱图并估计基音周期，分析两种窗函数对基音估计的影响；5.改变窗口长度，重复上一步，说明窗口长度对基音估计的影响。

实验二：语音信号的同态滤波综合实验。

1.给出语音信号，要求设计一个卷积同态系统，对声源和声道冲激响应进行有效分离；2.绘制语音信号的复倒谱，并利用复倒谱对语音信号进行基音估计；3.利用短时自相关函数进行基音估计，并与前者相比较，说明两种方法的优缺点。

实验三：语音信号的线性预测。

1. 声道传输函数建模：根据给出语音信号设计线性预测滤波器，求最佳预测系数；2 .利用自相关法对语音信号进行线性预测分析，求声道传输函数共振峰。

实验要求：1．正确使编程软件。

2．学会改变参数对语音信号处理的影响。

五、实验教材或讲义名称理论课程教材六、实验考核标准1、课程实验（占用课程总学时）6学时，考核成绩占总课程成绩的30%。

2、考核标准1）每次实验前应提交预习报告，明确实验目的，了解实验内容。

2）实验中遵守实验纪律，听从老师指导，爱护仪器设备，遵守操作规程。

3）课程实验完成时，应对学生实验技能进行检查，提出问题能说明清楚。

4）实验报告应及时完成，字要整洁、图表要规范，记录和处理的数据应准确。

语音信号处理实验报告

语音信号处理实验报告语音信号处理实验报告一、引言语音信号处理是一门研究如何对语音信号进行分析、合成和改善的学科。

在现代通信领域中，语音信号处理起着重要的作用。

本实验旨在探究语音信号处理的基本原理和方法，并通过实验验证其有效性。

二、实验目的1. 了解语音信号处理的基本概念和原理。

2. 学习使用MATLAB软件进行语音信号处理实验。

3. 掌握语音信号的分析、合成和改善方法。

三、实验设备和方法1. 设备：计算机、MATLAB软件。

2. 方法：通过MATLAB软件进行语音信号处理实验。

四、实验过程1. 语音信号的采集在实验开始前，我们首先需要采集一段语音信号作为实验的输入。

通过麦克风将语音信号输入计算机，并保存为.wav格式的文件。

2. 语音信号的预处理在进行语音信号处理之前，我们需要对采集到的语音信号进行预处理。

预处理包括去除噪声、归一化、去除静音等步骤，以提高后续处理的效果。

3. 语音信号的分析语音信号的分析是指对语音信号进行频谱分析、共振峰提取等操作。

通过分析语音信号的频谱特征，可以了解语音信号的频率分布情况，进而对语音信号进行进一步处理。

4. 语音信号的合成语音信号的合成是指根据分析得到的语音信号特征，通过合成算法生成新的语音信号。

合成算法可以基于传统的线性预测编码算法，也可以采用更先进的基于深度学习的合成方法。

5. 语音信号的改善语音信号的改善是指对语音信号进行降噪、增强等处理，以提高语音信号的质量和清晰度。

常用的语音信号改善方法包括时域滤波、频域滤波等。

六、实验结果与分析通过实验，我们得到了经过语音信号处理后的结果。

对于语音信号的分析，我们可以通过频谱图观察到不同频率成分的分布情况，从而了解语音信号的特点。

对于语音信号的合成，我们可以听到合成后的语音信号，并与原始语音信号进行对比。

对于语音信号的改善，我们可以通过降噪效果的评估来判断处理的效果。

七、实验总结通过本次实验，我们深入了解了语音信号处理的基本原理和方法，并通过实验验证了其有效性。

语音信号处理实验指导

语音信号处理实验讲义王艳芬李剑编中国矿业大学信电学院学生实验守则一、学生进入实验室必须遵守实验室的规章制度，遵守课堂纪律，保持实验室的安静和整洁，爱护实验室的一切设施。

二、实验课前要认真预习实验指导书，写出实验预习报告，并经教师批阅后方可进行实验。

三、实验课中要遵守操作规程，不要带电连接、更改或拆除线路。

线路接好后，经指导老师检查后，方可接通电源进行实验。

对于软件上机实验，不得随意删改计算机中原有的文件。

四、学生实验前对实验所用仪器设备要了解其操作规程和使用方法，凡因不预习或不按使用方法进行操作而造成仪器设备损坏者，除书面检查外，按学校规定进行赔偿。

五、实验中主意安全，遇到事故应立即关断电源并报告教师检查处理。

六、实验完毕后要做好整理工作，实验数据必须经指导教师签阅后，才能拆除线路，并将仪器、设备、凳子等按规定放好，经同意后方可离开实验室。

七、因故缺课的学生可向实验室申请一次补做机会。

无故缺课或无故迟到（15分钟以上）的不予补做，该次实验无成绩；累计三次者，该实验课以不及格论，并不得参加该门理论课程的考试。

八、实验室仪器设备不能擅自搬动调换，更不能擅自带出实验室。

信电学院专业实验中心二零一一年九月目录实验一语音信号得基音参数提取 (1)实验二语音信号的谱分析 (7)实验三基于DTW算法的孤立字识别 (11)《语音信号处理实验讲义》是为了配合“语音信号处理”课程教学而编写的，适用于信息工程、电子科学与技术等专业。

前修课程为“数字信号处理”。

该课程总学时数为40学时，其中实验学时为8学时。

实验内容及参考学时安排如下：实验一语音信号的基音参数提取（3个学时）实验二语音信号的谱分析（3个学时）实验三基于DTW算法的孤立字识别（2个学时）实验一语音信号的基音参数提取一、实验目的1.了解基音的基本概念以及清音与浊音的区别。

2.掌握几种基本的基音提取方法，熟悉自相关法、倒谱法和简化逆滤波法进行基音提取的matlab 编程。

语音信号处理实验

人发音时存在口唇的辐射效应，口唇的辐射模型相当于一阶高通滤波器，所以在对实际信号进行分析处理时，常用“预加重技术”，目的提升信号的高频部分，使信号的频谱更加平坦，方便信号的分析。
3 实验过程
1)读语音数 wavread 2)听语音 sound 3)写语音 wavwrite 4）对语音信号进行分帧处理 5）对语音信号进行预加重
分帧处理流程
1 读语音数据。 2 求语音长度。 3 确定帧长和帧移。 4 确定可以分多少帧 5 for 循环实现各帧信号的取出。先确定各帧信号的起点和终点坐标，然后利用矩阵操作函数将各帧信号取出。
[x,fs,bits]=wavread(' c:\windows\media\dig.wav '); x=x(:,1); x=x'; len=length(x); N=256; M=128; Fn=fix((len-N)/M+1); y=[]; for i=1:Fn
实验一语音信号的预处理
1 实验目的
通过 Matlab 编程掌握语音信号的预处理方法，包括对信号进行分帧、预加重，加窗处理。
2 实验原理
由于语音信号从整体上来看是一个非平稳过程，但是在一个短的时间内，其特性保持相对不变，所以语音信号具有短时平稳性，对语音信号的分析和处理必须建立在“短时”的基础上，将信号分为一段一段来分析其特征参数。
down=1+(i-1)*M; up=down+N-1; temp=x(down:up); y=[y;temp]; end % K=100; M=[]; for i=1:Fn temp=sum(abs(y(i,:)),2)
1
M=[M,temp]; end plot(M)
%短时过零率 [x,fs,bits]=wavread('c:\WINDOWS\Media\chimes.wav'); x=x(:,1); x=x'; len=length(x); N=256; M=128; Fn=fix((len-N)/M+1); y=[]; for i=1:Fn

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《语音信号处理》实验指导书哈尔滨理工大学自动化学院电子信息科学与技术系2014.10语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科，是目前发展最为迅速的信息科学研究领域的核心技术之一。

通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。

语音信号处理是一门新兴的学科，同时又是综合性的多学科领域和涉及面很广的交叉学科。

20世纪60年代中期形成的一系列数字信号处理的理论和算法，如数字滤波器、快速傅立叶变换（FFT）等是语音信号数字处理的理论和技术基础。

为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点，根据数字语音信号处理教学大纲，结合课程建设的需求，我们编写了本实验指导书。

实验一基于MATLAB 的语音信号时域特征分析一、实验目的：语音信号是一种非平稳的时变信号，它携带着各种信息。

在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。

语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。

语音信号分析可以分为时域和变换域等处理方法，其中时域分析是最简单的方法，直接对语音信号的时域波形进行分析，提取的特征参数主要有语音的短时能量，短时平均过零率，短时自相关函数等。

本实验要求掌握时域特征分析原理，并利用已学知识，编写程序求解语音信号的短时过零率、短时能量、短时自相关特征，分析实验结果，并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期及共振峰。

二、实验原理：1．窗口的选择通过对发声机理的认识，语音信号可以认为是短时平稳的。

在5~50ms 的范围内，语音频谱特性和一些物理特性参数基本保持不变。

我们将每个短时的语音称为一个分析帧。

一般帧长取10~30ms 。

我们采用一个长度有限的窗函数来截取语音信号形成分析帧。

通常会采用矩形窗和汉明窗。

矩形窗的定义：一个N 点的矩形窗函数定义为如下：公式1： 1 0() 0 n N w n ≤≤⎧=⎨⎩其它，， hamming 窗的定义：一个N 点的hamming 窗函数定义为如下：公式2：()0.540.46 cos 2π/1 0() 0 n N n N w n ⎧--≤≤⎡⎤⎪⎣⎦=⎨⎪⎩其它，2．短时能量由于语音信号的能量随时间变化，清音和浊音之间的能量差别相当显著。

因此对语音的短时能量进行分析，可以描述语音的这种特征变化情况。

定义短时能量为：公式3： )]()([ )]()([)1(22∑∑--=+∞-∞=-=-=nN n m m n m n w m x m n w m x E 特殊地，当采用矩形窗时，可简化为：公式4： )()1(2∑--==nN n m n m x E 3．短时平均过零率过零率可以反映信号的频谱特性。

当离散时间信号相邻两个样点的正负号相异时，我们称之为“过零”，即此时信号的时间波形穿过了零电平的横轴。

统计单位时间内样点值改变符号的次数具可以得到平均过零率。

定义短时平均过零率：公式5：()()()()()()sgn sgn 1sgn sgn 1*n m Z x m x m w n m x n x n w n+∞=-∞=---⎡⎤⎡⎤⎣⎦⎣⎦=--⎡⎤⎡⎤⎣⎦⎣⎦∑ 在矩形窗的条件下，可以简化为：公式6：()[]()[]∑--=-=nN n m n m x m x N Z )1(|1-sgn sgn | 21短时过零率可以粗略估计语音的频谱特性。

由语音的产生模型可知，发浊音时，声带振动，尽管声道有多个共振峰，但由于声门波引起了频谱的高频衰落，因此浊音能量集中于3KZ 以下。

而清音由于声带不振动，声道的某些部位阻塞气流产生类白噪声，多数能量集中在较高频率上。

高频率对应着高过零率，低频率对应着低过零率，那么过零率与语音的清浊音就存在着对应关系。

4．短时自相关函数自相关函数用于衡量信号自身时间波形的相似性。

清音和浊音的发声机理不同，因而在波形上也存在着较大的差异。

浊音的时间波形呈现出一定的周期性，波形之间相似性较好；清音的时间波形呈现出随机噪声的特性，样点间的相似性较差。

因此，我们用短时自相关函数来测定语音的相似特性。

短时自相关函数定义为：公式7： ()()()()() n m R k x m w n m x m k w n k m +∞=-∞=-+--∑ 令：'m n m =+，并且()()w m w m '-=，可以得到：()()()()()10 N kn m R k x n m w m x n m k w k m --=''=++++⎡⎤⎡⎤⎣⎦⎣⎦∑三、实验内容：(1) 用Matlab绘出图1.1——这两种窗函数在帧长N=50时的时域波形。

(2) 用Matlab绘出图1.2——这两种窗函数的频率响应幅度特性。

这两种窗函数都有低通特性，通过分析这两种窗的频率响应幅度特性。

(3) 用MA TLAB绘出图1.3和图1.4——给出了不同矩形窗和hamming窗长的短时能量函数，分析在用短时能量反映语音信号的幅度变化时，不同的窗函数以及相应窗的长短均有影响。

以及总结短时能量函数的应用。

(4) 用MA TLAB绘出图1.5——某一语音在矩形窗条件下求得的短时能量和短时平均过零率。

分析清音和浊音的短时能量，过零率。

总结短时平均过零率的应用。

(5) 用MATLAB绘出图1.6——给出了清音的短时自相关函数波形，用MA TLAB绘出图——1.7给出了不同矩形窗长条件下（窗长分别为N=70，N=140，N=210，N=280）浊音的短时自相关函数波形。

由图1.6、图1.7短时自相关函数波形分析判断一个语音信号是清音还是浊音，还可以判断浊音的基音周期。

四、实验要求：(1) 撰写预习报告。

(2) 用Matlab完成算法设计和程序设计并上机调试通过。

(3) 撰写实验报告，简述实验目的及原理，给出理论计算结果和程序计算结果并分析。

实验二基于MATLAB 分析语音信号频域特征一、实验目的信号的傅立叶表示在信号的分析与处理中起着重要的作用。

因为对于线性系统来说，可以很方便地确定其对正弦或复指数和的响应，所以傅立叶分析方法能完善地解决许多信号分析和处理问题。

另外，傅立叶表示使信号的某些特性变得更明显，因此，它能更深入地说明信号的各项红物理现象。

由于语音信号是随着时间变化的，通常认为，语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。

输出频谱是声道系统频率响应与激励源频谱的乘积。

声道系统的频率响应及激励源都是随时间变化的，因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示，但不能直接用于语音信号。

由于语音信号可以认为在短时间内，近似不变，因而可以采用短时分析法。

本实验要求掌握傅里叶分析原理，会利用已学的知识，编写程序估计短时谱、倒谱，画出语谱图，并分析实验结果，在此基础上，借助频域分析方法所求得的参数分析语音信号的基音周期或共振峰。

二、实验原理1．短时傅立叶变换由于语音信号是短时平稳的随机信号，某一语音信号帧的短时傅立叶变换的定义为： j j (e )[()()]e m n m X x m w n m ωω+∞-=-∞=-∑其中w(n-m)是实窗口函数序列，n 表示某一语音信号帧。

令n-m=m'，则得到： j ()-j (e )()() e [()()]j n m n m n j m m X x n m w m e x n m w m e ωωωω+∞'--'=-∞+∞''=-∞''=-''=-∑∑ 假定：j j j j (e )()()e e (e )m n n n m X x n m w m X ωωωω+∞''=-∞''=-=∑则可得到： j j j j (e )e (e )e [()jb ()]n n n n n n X X a ωωωωωω--=⋅=-同样，不同的窗口函数，将得到不同的傅立叶变换式的结果。

由上式可见，短时傅立叶变换有两个变量：n 和ω，所以它既是时序n 的离散函数，又是角频率ω的连续函数。

与离散傅立叶变换逼近傅立叶变换一样，如令2πk N ω=，则得离散的短时傅立叶吧如下：2π2πj j (e )()()()e ,01kkm N N n n m X X k x m w n m k N +∞-=-∞==-≤≤-∑2．语谱图语谱图（Spectrogram ）是一种时间依赖于傅里叶分析的显示图像。

它是一种三维频谱，可同时在时间和频率上显示语音频谱随时间的变化，其纵轴为频率，横轴为时间；任意给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓度来表示，通过语谱图可以确定共振峰频率及基音频率，确定讲话人的本性。

窄带语谱：带通滤波器45Hz ，有良好的频率分辨率，有利于显示基音频率及各次谐波，但时间分辨率较差，不利于观察共振峰的变化。

宽带语谱：带通滤波器300Hz ，有良好的频率分辨率及较差的频率分辨率给出语音的共振峰频率及清浊音的能量汇聚区，在语谱图中共振峰呈现为条纹。

水平方向是时间轴，垂直方向是频率轴，图上的灰度条纹代表各个时刻的语音短时谱。

语谱图反映了语音信号的动态频率特性，在语音分析中具有重要的实用价值。

被成为可视语言。

语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。

时间分辨率高，可以看出时间波形的每个周期及共振峰随时间的变化，但频率分辨率低，不足以分辨由于激励所形成的细微结构，称为宽带语谱图；而窄带语谱图正好与之相反。