基于语音信号的说话人识别实验报告 李力
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课程设计说明书
设计题目:基于语音信号的说话人识别专业:电子信息工程班级:2008-1
设计人李力
同组人:侯超、李源基、褚召旭李泽磊学号:************
山东科技大学
2010年7月1日
摘要
语音是人类相互交流和通信最方便快捷的手段。如何高效地实现语音传输存储或通过语音实现人机交互,是语音信号处理领域中的重要研究课题。语音信号处理涉及数字信号处理、语音学、语言学、生理学、心理学、计算机科学以及模式识别、人工智能等诸多学科领域,是目前信息科学技术学科中发展最为迅速的一个领域。
关键字:语音识别、清音、浊音、短时平均能量、倒谱、短时平均过零率
目录
第一章绪论 (1)
1.1语音识别技术的发展历史……………………………………………………
1.2语音识别研究的现况与难点…………………………………………………………第二章方案比较…………………………………………………………………
第三章软件介绍……………………………………………………………………
3.1 Cool Edit Pro 2.1
3.2 MATLAB 介绍
第四章模块设计…………………………………………………………………………………
4.1语音端点检测……………………………………………………………………
4.1.1 原理
4.1.2 源程序
4.2短时能量
4.2.1 用途
4.2.3 问题
4.2.3 解决方法
4.2.4 程序
4.3 短时平均过零率
4.3.1 原理
4.3.2 程序
4.4 短时平均过零率
4.5 倒谱
4.6主程序
4.7 实验结果
第五章设计中的问题
第六章收获与体会……………………………………………………………. 第七章参考文献………………………………………………………………
第八章附录…………………………………………………………………
第一章绪论
1.1 语音识别技术的发展历史
语音识别技术的研究工作开始于20世纪的50年代,第一个可以用来识别10个英文数字的语音识别系统一Audry系统是在AT&Bell实验室研制成功的。20世纪60年代,计算机的应用推动了语音识别的发展。在这个阶段主要是提出了线性预测分析(LP)和动态规划(DP),主要解决了语音信号的产生模型问题。Bell实验室的S.Pruzanskay提出了基于模式匹配和概率统计来进行语音识别,这对语音识别的发展产生了深远的影响.
20 世纪70年代,语音识别技术得到了快速发展。具体表现在:理论上,线性预测分析得到进一步的发展,动态时间弯度(DTW)技术基本成熟,特别提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立词汇的识别系统。
20世纪80年代,语音识别技术得到了进一步发展。其中显著的特征是HMM模型和
人工神经网络(ANN)在语音识别中得到应用。经过AT&Bell实验室Rabiner等科学家的
共同研究,把原来HMM的纯数学模型工程化,从而得到推广。经过实验证明,采用HMM
和ANN模型建立的语音识别系统,性能很好。进入 20 世纪90年代,随着多媒体时代
的来临,迫切需要语音识别系统从实验室走向实用。许多发达国家如美国、日本、
韩国及IBM. Apple. AT&T. NTT等著名的公司都为语音识别系统的研究投入大量的资
金121而 AR M 技术发展就比较迟,ARM公司成立于1990年11月,全称为Advanced RISC Machines Ltd,它是由英国的Acorn公司提供技术支持,美国苹果等公司出资合作的美英公司。ARM公司本身不直接从事芯片生产,也不销售芯片,靠转让设计许可,由合作伙伴生产出各种特色的芯片。
1.2 语音识别研究的现况与难点
经过近50年的发展,语音识别己经发展到一个较高的水平,并从实验室走向市场,进入了一个实用化阶段。由于矢量量化,HMM和人工网络等技术被用于语音信号处理,并经过不断改革与完善,使语音信号处理技术产生突破性的发展。英语的连续数字语音识别的正确率已经达到了99%以上,而具有高度混淆的英语字母的识别也达到了97%以上。目前对语音识别的研究主要是一方面对语音学的统计模型的研究,对语音段的建模方法及HMM 与人工网络。另外一方面是为了语音识别的实用化的需要,讲者自适应,听觉模型,快速搜索识别算法以及进一步语音模型的研究。语音识别研究中也存在下面几个难题:
1、语音识别的一种重要应用是自然语言的识别和理解。这一工作要解决的问题首先是因为连续语音中的因素、音节或单词之间的调音结合引起的音变,使基本模型的边界变的不明确.其次要建立一个理解语法和语义的规则的专家系统。
2、语音信息变化很大。语音模型不仅对不同的讲话者是不同的,而且对于同一个讲话者也是不同的。例如,同一个说话者在随便说话和认真说话时的语音信息也不同;即使同一说话者用相同的方式说话时,其语音模式也受时间的影响,即今天及一
个月后,同一个说话者说相同的话时候,语音信息也不相同。
3、语音的模糊性。说话者在讲话时,不同的语音听起来很相似。这一点不仅仅在汉语中体现,在其他语言也有说体现。
4、在强噪声的环境下语音识别困难。语音数据都是在接近理想的条件下采集而成的,然而当语音从实验室走向实际应用时,环境噪声所带来的问题就显得越来越重要了。
第二章方案比较及选择
方案一,基于HMM的与文本有关的说话人识别
(训练)
(识别)
方案二
选择方案二
第三章软件介绍
3.1 Cool Edit Pro 2.1
CoolEdit PRO 2.1 (功能强大的多轨录音软件)非常出色的数字音乐编辑器和MP3制作软件。不少人把Cool Edit形容为音频“绘画”程序。你可以用声音来“绘”