孤立词语音识别系统设计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《小词汇量非特定人连续语音识别系统的研究》硕士论文范长青
学生签名:
年月日
指导教师意见:
签名:
院系领导意见:
签名:
年月日
深圳大学本科毕业论文(设计)开题报告
题目
孤立词语音识别系统设计
学生姓名朱雯学号200 Nhomakorabea130019
专业
电子信息工程
学院
信息工程学院
指导教师
郑能恒
本选题的意义及国内外发展状况:
国外的语音识别研究工作可以追溯到20世纪50年代AT&T贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。但真正取得实质性进展(在小词汇量、孤立词的识别方面),并将其作为一个重要的课题开展研究则是在60年代末70年代初。在70年代,提出了语音信号线性预测编码(LPC)技术,动态时间规整(DTW)技术,矢量量化(VQ)和隐马尔可夫模型(HMM)理论。进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。第一个高性能的大词汇量连续语音识别系统Sphinx诞生在卡耐基梅隆大学。这一时期,语音识别的研究更进一步,兴起了人工神经网络在语音识别中的应用。而且隐马尔柯夫模型(HMM)技术的不断完善和日渐成熟,使之成为了目前语音识别的主流方法。进入20世纪90年代后,语音识别系统开始从实验室走向实用。许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。比较有代表性的系统有:IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, Nuance公司的Nuance Voice Platform语音平台,Microsoft的Whisper, Sun的VoiceTone等。
研究方法、手段及步骤:
非特定人语音识别系统设计分为系统定义,训练和识别三个阶段。在系统定义阶段,要根据系统具体应用范围定义系统的词汇库,即系统的识别词汇。在训练阶段,通过麦克风输入定义的语音命令,然后对模拟语音信号进行预处理,对处理后得到的数字语音信号进行语音特征提取,为不同用户的不同语音特征参数建立一个相应的语音特征模型库。训练完成后,进入语音识别阶段,麦克风输入定义的词汇中的一个或若干个词汇(任意组合任意次序),然后进行预处理,对处理后得到的数字语音信号进行特征参数提取,紧接着用概率密度函数计算语音参数对HMM模型的输出概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果。系统采用C语言编程实现,大致具体步骤:
孤立词语音识别的基本原理:特征提取,训练,识别,失真测度。主要识别框架:基于模板匹配的动态时间规整法DTW和基于统计模型的隐马尔柯夫模型法HMM。特征提取就是通过数字信号处理技术从语音波形中提取最能表征语音的语意信息的特征参数。镁倒谱系数MFCC:是在语音识别过程当中最常用的倒谱特征参数,它将一般的频谱转换到基于Mel尺度(基于人耳的听觉特性而设计的,具有很好的识别性能和抗噪声能力)的非线性频谱上,然后再进过一组滤波器,最后转换到倒谱域中。训练是预先分析出语音特征参数,制作语音模板或其它(统计)模型并存放在语音模型库中。识别是待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板型一一比较,并采用判决的方法找出最接近语音特征的模型,得出识别结果。失真测度是计量语音特征参数矢量之间的“失真(距离)测度”。隐马尔柯夫模型法HMM为当前语音识别的主流算法,它将将语音模拟成一对时域与频域上并存的随机过程(时域:状态转移过程,频域:混合高斯分布)。其优点是训练和识别过程都有很完备的理论框架,跟高层次的语言学模型可以很好地结合。
我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别十个元音。直至1973年才由中国科学院声学所开始计算机语音识别。1986年3月我国高科技发展计划(863计划)启动,国家863智能计算机专家组为语音识别技术研究专门立项,每两年举行一次专题会议。现在我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势。国内有不少语音识别系统已研制成功。在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。
随着信息产业的迅速发展,人们倾向于使用高效,快捷,方便的电子产品。语音识别作为人机交互的一项关键领域,具备了实时,方便,快速等特点,在当今科学技术的发展上也有着日益重要的地位。利用语音识别技术来实现数码相机的拍摄指令控制不像传统的拍照模式,必须要手动按下机身上的快门键,或者其他按钮来操控相机。而是通过识别输入的实时语音命令,从而实现对相机的控制。这样很大程度上方便了一些残障人士使用相机,同时也完全解决了手动操作相机带来的轻微抖动造成的画质降低。并且通过语音控制相机,只要一选好合适的角度,拍摄人能轻易实现抓拍,自拍功能,非常方便快捷。因此,
预处理:包括语音信号采样、反混叠带通滤波、语音识别基元的选取、端点检测、语音分帧加窗以及预加重等处理工作。
特征提取:提取语音中反映本质特征的声学参数,如平均能量、平均过零率、共振峰等;并提取特征参数,如线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC)。
模型训练:在识别之前通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。
模式匹配:根据一定规则(如某种距离测度),计算输入特征与库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语义信息。
参考文献:
《语音识别基础》上海交通大学计算机系 吴亚栋
《基于HMM的孤立词语音识别系统的研究》硕士论文王明奇
《语音识别技术研究及实现》高宏涛张德贤
《基于DSP的机器人语音识别及控制系统设计》硕士论文刘京诚
这种语音识别系统设计有其独特的优势和应用前景。
研究内容:
本次的设计是基于孤立词语音识别的对非特定人的数码相机语音控制系统。主要目的是实现简单的实时数码相机拍摄控制(例如连拍张数选择,闪光灯的使用)。因此,识别词汇定义为一些简短的拍摄命令关键词,与十个阿拉伯数字。
孤立词语音识别是指识别的单元为字、词或短语,它们组成识别的词汇表,并对它们中的每一个通过训练建立标准模板或模型。非特定人语音识别的模板或模型适应于指定的某一范畴的说话人(如说标准普通话),模板或模型由该范畴的多个人通过训练而产生。识别时可供参加训练的发音人(圈内人)使用,也可供未参加训练的同一范畴的发音人(圈外人)使用。
学生签名:
年月日
指导教师意见:
签名:
院系领导意见:
签名:
年月日
深圳大学本科毕业论文(设计)开题报告
题目
孤立词语音识别系统设计
学生姓名朱雯学号200 Nhomakorabea130019
专业
电子信息工程
学院
信息工程学院
指导教师
郑能恒
本选题的意义及国内外发展状况:
国外的语音识别研究工作可以追溯到20世纪50年代AT&T贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。但真正取得实质性进展(在小词汇量、孤立词的识别方面),并将其作为一个重要的课题开展研究则是在60年代末70年代初。在70年代,提出了语音信号线性预测编码(LPC)技术,动态时间规整(DTW)技术,矢量量化(VQ)和隐马尔可夫模型(HMM)理论。进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。第一个高性能的大词汇量连续语音识别系统Sphinx诞生在卡耐基梅隆大学。这一时期,语音识别的研究更进一步,兴起了人工神经网络在语音识别中的应用。而且隐马尔柯夫模型(HMM)技术的不断完善和日渐成熟,使之成为了目前语音识别的主流方法。进入20世纪90年代后,语音识别系统开始从实验室走向实用。许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。比较有代表性的系统有:IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, Nuance公司的Nuance Voice Platform语音平台,Microsoft的Whisper, Sun的VoiceTone等。
研究方法、手段及步骤:
非特定人语音识别系统设计分为系统定义,训练和识别三个阶段。在系统定义阶段,要根据系统具体应用范围定义系统的词汇库,即系统的识别词汇。在训练阶段,通过麦克风输入定义的语音命令,然后对模拟语音信号进行预处理,对处理后得到的数字语音信号进行语音特征提取,为不同用户的不同语音特征参数建立一个相应的语音特征模型库。训练完成后,进入语音识别阶段,麦克风输入定义的词汇中的一个或若干个词汇(任意组合任意次序),然后进行预处理,对处理后得到的数字语音信号进行特征参数提取,紧接着用概率密度函数计算语音参数对HMM模型的输出概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果。系统采用C语言编程实现,大致具体步骤:
孤立词语音识别的基本原理:特征提取,训练,识别,失真测度。主要识别框架:基于模板匹配的动态时间规整法DTW和基于统计模型的隐马尔柯夫模型法HMM。特征提取就是通过数字信号处理技术从语音波形中提取最能表征语音的语意信息的特征参数。镁倒谱系数MFCC:是在语音识别过程当中最常用的倒谱特征参数,它将一般的频谱转换到基于Mel尺度(基于人耳的听觉特性而设计的,具有很好的识别性能和抗噪声能力)的非线性频谱上,然后再进过一组滤波器,最后转换到倒谱域中。训练是预先分析出语音特征参数,制作语音模板或其它(统计)模型并存放在语音模型库中。识别是待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板型一一比较,并采用判决的方法找出最接近语音特征的模型,得出识别结果。失真测度是计量语音特征参数矢量之间的“失真(距离)测度”。隐马尔柯夫模型法HMM为当前语音识别的主流算法,它将将语音模拟成一对时域与频域上并存的随机过程(时域:状态转移过程,频域:混合高斯分布)。其优点是训练和识别过程都有很完备的理论框架,跟高层次的语言学模型可以很好地结合。
我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别十个元音。直至1973年才由中国科学院声学所开始计算机语音识别。1986年3月我国高科技发展计划(863计划)启动,国家863智能计算机专家组为语音识别技术研究专门立项,每两年举行一次专题会议。现在我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势。国内有不少语音识别系统已研制成功。在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。
随着信息产业的迅速发展,人们倾向于使用高效,快捷,方便的电子产品。语音识别作为人机交互的一项关键领域,具备了实时,方便,快速等特点,在当今科学技术的发展上也有着日益重要的地位。利用语音识别技术来实现数码相机的拍摄指令控制不像传统的拍照模式,必须要手动按下机身上的快门键,或者其他按钮来操控相机。而是通过识别输入的实时语音命令,从而实现对相机的控制。这样很大程度上方便了一些残障人士使用相机,同时也完全解决了手动操作相机带来的轻微抖动造成的画质降低。并且通过语音控制相机,只要一选好合适的角度,拍摄人能轻易实现抓拍,自拍功能,非常方便快捷。因此,
预处理:包括语音信号采样、反混叠带通滤波、语音识别基元的选取、端点检测、语音分帧加窗以及预加重等处理工作。
特征提取:提取语音中反映本质特征的声学参数,如平均能量、平均过零率、共振峰等;并提取特征参数,如线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC)。
模型训练:在识别之前通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。
模式匹配:根据一定规则(如某种距离测度),计算输入特征与库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语义信息。
参考文献:
《语音识别基础》上海交通大学计算机系 吴亚栋
《基于HMM的孤立词语音识别系统的研究》硕士论文王明奇
《语音识别技术研究及实现》高宏涛张德贤
《基于DSP的机器人语音识别及控制系统设计》硕士论文刘京诚
这种语音识别系统设计有其独特的优势和应用前景。
研究内容:
本次的设计是基于孤立词语音识别的对非特定人的数码相机语音控制系统。主要目的是实现简单的实时数码相机拍摄控制(例如连拍张数选择,闪光灯的使用)。因此,识别词汇定义为一些简短的拍摄命令关键词,与十个阿拉伯数字。
孤立词语音识别是指识别的单元为字、词或短语,它们组成识别的词汇表,并对它们中的每一个通过训练建立标准模板或模型。非特定人语音识别的模板或模型适应于指定的某一范畴的说话人(如说标准普通话),模板或模型由该范畴的多个人通过训练而产生。识别时可供参加训练的发音人(圈内人)使用,也可供未参加训练的同一范畴的发音人(圈外人)使用。