语音识别算法研究及实现
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别涉及多个学科,包括:模式识别,信号处理,数理统计,语言学, 等等。
@/\ :藏电 心⑦子 \!\ ④)、 :\璺 (、蠹黧■ 、<伶霉7
。“’_~~偷、
佾\堡雁綦步.7塑/’
\镭能,
语音识别可应用于多个领域,包括常见的电话拨号,查询系统,听写机 等。其常用的功能大致可分为一下几类:
a)文本输入 利用语音识别技术,将人们发出的语音信号直接转换为文本。这样一来可以 直接代替键盘,进行语音输入。使得文字输入的效率更高,而且更省力。此外还
华东师范大学 硕士学位论文 语音识别算法研究及实现 姓名:涂俊辉 申请学位级别:硕士 专业:计算机应用技术 指导教师:续晋华
20100401
华东师范人学硕_Ij学位论文
摘要
摘要
通常意义上,我们所说的语音识别指的是将语音信号转换成文字的一个过 程…。语音识别作为模式识别领域中一个重要的研究方向,其重要性不言而喻。 语音识别技术的发展可以使得人们与计算机等设备能更方便的进行交互。其最 基本的应用就是实现语音输入。语音输入可以代替键盘的功能,提高输入速度, 也节省人们宝贵的时间。此外还可能将语音识别技术用来控制某些机器,汽车, 飞机,手机等。
we are carrying out the experiment of isolated—word speech recognition.And in the next chapter,we move on to the Hidden Markov Model and its application in speech ,recognition.After the basic introduction of this mathematic model,we try to use it in isolated—word speech recognition.And then we continue with the continuous speech
4
华东师范人学硕_1:学位论义
第2章语青信目.的预处理及特征提取
第2章语音信号的预处理及特征提取
在介绍语音信号的处理之前有必要说明一下一个语音识别系统的基本构 成。其结构如图2.1所示。
图2.1一个语音识别系统的组成 首先我们得到的是经过采样的原始语音信号。原始信号经过一个语音信号前 端处理系统,得到我们所需要的语音特征。其目的是为了压缩原始的语音数据, 提取出有代表性的特征用来做后续的识别。之后有两个过程,在识别系统的建立 阶段,则是利用训练样本的特征建立模板,或者用来训练模型的参数,得到已训 练好的模板或者统计模型‘81。在识别阶段时,将测试样本的特征经过分类器分类。 该分类器利用原来训练好的模板或模型判断出未知样本是属于哪一类,得出识别 好的结果。 2.1语音信号的预处理 语音信号的预处理包括以下几个过程: >预加重 >分帧
select the speech unit,how to improve the parameters of the hidden markov model.
A toolbox called HTK and a speech database TIMIT are introduced and then they
华东师范人学硕J:学位论文
第1章绪论
免去了人们为了输入某种复杂文字时去学习使用某种输入法的麻烦。
b)语音控制
语音识别技术还可用来实现这样的功能,利用声音控制某个机器设备或者机 器人的运行和工作。比如说同常使用的手机已经实现了语音拨号。还有在驾驶汽 车,及其他设备时,用语音来进行控制在将来也是可能的。语音控制的实现可以 大大地提高人们的工作效率,人们在手脚都被占用从事某项活动的同时,语言也 可用来进行某种操作。
1.3国内外研究历史及现状
语音识别的研究有了几十年的发展。最早的语音识别系统可以追溯N50年代 的贝尔实验室,他们第一个开发出了一个孤立词的数字识别系统口1。此后在70年 代语音识别技术有了进一步的发展,其中线性预测编码(LPC)¨3及动态规划 (DTW)∞1技术的使用,很好的解决了模板匹配中碰到的模板与待识别语音时间上 长度不一致的问题,显著地提高了识别率。
3
华东师范大学硕:t学位论文
第l章绪论
使用三音素模型,对不同模型的某些状态之间进行绑定,增加高斯混合数目等方 法,提高了最终的识别率。最后对目前的研究做出总结,并分析目前存在的问题, 指出今后的研究方向。
这一节主要介绍本论文主要内容。具体内容的组织如下: 第一章阐述了课题研究的背景及意义、介绍了国内外研究现状、分析了课题 研究的目的、概要描述了课题的主要工作以及论文组织结构; 第二章主要介绍了语音信号的预处理及特征提取。 第三章介绍了隐马尔可夫模型的理论。包括隐马尔可夫模型中的三个基本问 题,以及如何将其应用到语音识别中来。 第四章主要介绍了基于隐马尔可夫模型的孤立词识别,并且用不同的特征进 行实验,比较其性能的差异。 第五章介绍了如何用隐马尔可夫模型进行连续语音识别。其中包括了连续语 音识别系统的构成。隐马尔可夫模型参数的设置及优化。 第六章是总结及展望。这部分主要对目自订的研究作了总结,并提出了今后的 研究方向。
C)身份的识别
此外语音识别技术也可用来做身份的认证。就像指纹识别及人脸识别一样。 在某些重要的场所使用的门禁系统,同样可以使用语音来进行身份的确认。
所以说语音识别的研究是一项具有广阔的应用及重大意义的研究课题。
1.2语音识别的分类
语音识别有广义和狭义之分。广义的语音识别是指从语音信号中提取出任何 人们感兴趣内容的技术。而我们通常所说的语音识别指的是狭义的语音识别,也 即从语音信号中提取出文本内容的技术。也就是通过算法,将语音传换成文本 的过程。因此语音识别有如下的分类盥3。
human’S interaction with the machines.Voice can be used as an input method, and it will save people’S time and effort when they are inputting text on a computer. Besides,speech recognition can also be used to control some machines,like automobiles,airplanes or mobile phones.
华东师范大学硕fI:学位论文
第l章绪论
第1章绪论
1.1研究背景及意义
语言是人们用来进行同常交流,传递信息最为有效的一种工具。声音中包含 着各种各样的信息。由于大自然的进化,人类可以轻易地提取出语音信号中的各 种有用信息。
然而随着社会的发展和进步,人们除了相互之间要进行交流之外,还会大量 地接触到各种机器设备。如何让这些由计算机控制的机器也能听懂人类的语言, 成为了一项很有意义并且很具挑战性的研究课题。而语音识别的研究就是为了达 到这样的目的。
This thesis introduces some theories about speech recognition and also presents
the results of some experiments of improving the speech recognition algorithms.In
>说话人识别 说话人识别也就是根据一段未知的语音来判断说话者是谁。而语音信号 中的文字内容则并不重要。这种语音识别就可以用来做身份的认证。
>说话内容的识别 说话内容的识别就是本文所要研究的内容。 此外说话内容的识别又可以根据不同的标准划分成好几类 ·根据要识别的语音信号中的词是连续的还是词与词之间有明显间隔 的可分为:连续词的语音识别和孤立词的语音识别。 ·根据识别任务中词汇量的大小有可分为 a)小词汇量: 词汇量小于100 b)中词汇量: 词汇量在100和1000之间
我国的语音识别研究开始的比较晚。但是近年来发展也很快。我国的863计 划还为语音识别研究专门立项。我国的一些研究机构,如清华大学电子工程系及 中科院声学所都有在语音识别方面取得不错的成果。
1.4本文研究内容及组织结构
本文主要的研究内容有:语音信号的特征提取及不同特征对识别结果的影 响;在一个大词汇量非特定人的英文连续语音识别任务中,讨论了如何用隐马尔 可夫模型对语音信号建模,包括建模单元的选取,模型参数的优化。其中包括了,
2
华东帅范人学硕J:学位论文
第1章绪论wenku.baidu.com
c)大词汇量大于1000 d)无限词汇量识别任务中的词可能是任何词 ·根据待识别的语音信号是有某个特定人发出的还是不确定的某个人
发出的,又可分为
a)特定人的语音识别:所有被识别的语句均有某个特定的人产生 b)非特定人的语音识别:待识别的语句不确定是由谁产生
通常来说,词汇量越大识别难度越大,连续词的识别比孤立词的识别难度大, 非特定人的识别比特定人的识别难度大。
chapter 2 we describe the processing of the speech signal and the feature extraction.
We mainly focus on two types of features and make comparison between them when
recognition is of great significance,as it's one of the important research fields in paRern recognition and has lots of application.For example,it will facilitate
are used to carry out the experiments of large vocabulary speaker-independent
continuous speech recognition.
KEY WORD:Speech recognition,Hidden markov model,htk,TIMIT
recognition using hidden markov model.The structure of a continuous speech
recognition system is introduced and we also discuss several topics like,how to
此前的语音识别主要采用模板匹配的方法,多用于进行孤立词的识别。在80 年代以后,随着一些新的算法如:二层动态规划算法哺3等的提出,把研究重点转 向了连续语音识别。随着rabiner等人将隐马尔可夫模型盯3引入到语音识别领域, 使得基于隐马尔可夫模型的语音识别研究成为之后的研究重点。
此后不少的公司,学校,科研机构都有研发出自己的语音识别系统, 如CMU 的sphinx系统,IBM的viavoice等。
关键词:语音识别,HMM,隐马尔可夫模型,HTK,TIMIT
华东师范大学硕J二学位论文
ABSTRACT
ABSTRACT
Generally speaking,speech recognition is a process,through which the speech signal is converted into text.It goes without saying that the research on speech
本文对语音识别的一些基本理论及算法进行了一些研究和实验。首先在第 二章对语音信号的处理及特征提取进行了介绍,简要的介绍了两种常见的特征 提取方法,并且比较了两种特征在用于孤立词的识别时性能的差异。接下来讨 论了基于隐马尔可夫模型(Hidden Markov Model)的语音识别算法。在利用隐马 尔可夫模型进行孤立词识别的基础上,尝试将该模型用于英文连续词的语音识 别。该部分内容中介绍了一个连续语音识别系统的构成,讨论了对声学建模单 元的选取,模型参数的改进,识别算法以及统计语言模型的使用,并且介绍了一 个语音识别工具HTK。利用该工具在一个大词汇量非特定人的连续语音数据库 TIMIT上进行相关的实验。
@/\ :藏电 心⑦子 \!\ ④)、 :\璺 (、蠹黧■ 、<伶霉7
。“’_~~偷、
佾\堡雁綦步.7塑/’
\镭能,
语音识别可应用于多个领域,包括常见的电话拨号,查询系统,听写机 等。其常用的功能大致可分为一下几类:
a)文本输入 利用语音识别技术,将人们发出的语音信号直接转换为文本。这样一来可以 直接代替键盘,进行语音输入。使得文字输入的效率更高,而且更省力。此外还
华东师范大学 硕士学位论文 语音识别算法研究及实现 姓名:涂俊辉 申请学位级别:硕士 专业:计算机应用技术 指导教师:续晋华
20100401
华东师范人学硕_Ij学位论文
摘要
摘要
通常意义上,我们所说的语音识别指的是将语音信号转换成文字的一个过 程…。语音识别作为模式识别领域中一个重要的研究方向,其重要性不言而喻。 语音识别技术的发展可以使得人们与计算机等设备能更方便的进行交互。其最 基本的应用就是实现语音输入。语音输入可以代替键盘的功能,提高输入速度, 也节省人们宝贵的时间。此外还可能将语音识别技术用来控制某些机器,汽车, 飞机,手机等。
we are carrying out the experiment of isolated—word speech recognition.And in the next chapter,we move on to the Hidden Markov Model and its application in speech ,recognition.After the basic introduction of this mathematic model,we try to use it in isolated—word speech recognition.And then we continue with the continuous speech
4
华东师范人学硕_1:学位论义
第2章语青信目.的预处理及特征提取
第2章语音信号的预处理及特征提取
在介绍语音信号的处理之前有必要说明一下一个语音识别系统的基本构 成。其结构如图2.1所示。
图2.1一个语音识别系统的组成 首先我们得到的是经过采样的原始语音信号。原始信号经过一个语音信号前 端处理系统,得到我们所需要的语音特征。其目的是为了压缩原始的语音数据, 提取出有代表性的特征用来做后续的识别。之后有两个过程,在识别系统的建立 阶段,则是利用训练样本的特征建立模板,或者用来训练模型的参数,得到已训 练好的模板或者统计模型‘81。在识别阶段时,将测试样本的特征经过分类器分类。 该分类器利用原来训练好的模板或模型判断出未知样本是属于哪一类,得出识别 好的结果。 2.1语音信号的预处理 语音信号的预处理包括以下几个过程: >预加重 >分帧
select the speech unit,how to improve the parameters of the hidden markov model.
A toolbox called HTK and a speech database TIMIT are introduced and then they
华东师范人学硕J:学位论文
第1章绪论
免去了人们为了输入某种复杂文字时去学习使用某种输入法的麻烦。
b)语音控制
语音识别技术还可用来实现这样的功能,利用声音控制某个机器设备或者机 器人的运行和工作。比如说同常使用的手机已经实现了语音拨号。还有在驾驶汽 车,及其他设备时,用语音来进行控制在将来也是可能的。语音控制的实现可以 大大地提高人们的工作效率,人们在手脚都被占用从事某项活动的同时,语言也 可用来进行某种操作。
1.3国内外研究历史及现状
语音识别的研究有了几十年的发展。最早的语音识别系统可以追溯N50年代 的贝尔实验室,他们第一个开发出了一个孤立词的数字识别系统口1。此后在70年 代语音识别技术有了进一步的发展,其中线性预测编码(LPC)¨3及动态规划 (DTW)∞1技术的使用,很好的解决了模板匹配中碰到的模板与待识别语音时间上 长度不一致的问题,显著地提高了识别率。
3
华东师范大学硕:t学位论文
第l章绪论
使用三音素模型,对不同模型的某些状态之间进行绑定,增加高斯混合数目等方 法,提高了最终的识别率。最后对目前的研究做出总结,并分析目前存在的问题, 指出今后的研究方向。
这一节主要介绍本论文主要内容。具体内容的组织如下: 第一章阐述了课题研究的背景及意义、介绍了国内外研究现状、分析了课题 研究的目的、概要描述了课题的主要工作以及论文组织结构; 第二章主要介绍了语音信号的预处理及特征提取。 第三章介绍了隐马尔可夫模型的理论。包括隐马尔可夫模型中的三个基本问 题,以及如何将其应用到语音识别中来。 第四章主要介绍了基于隐马尔可夫模型的孤立词识别,并且用不同的特征进 行实验,比较其性能的差异。 第五章介绍了如何用隐马尔可夫模型进行连续语音识别。其中包括了连续语 音识别系统的构成。隐马尔可夫模型参数的设置及优化。 第六章是总结及展望。这部分主要对目自订的研究作了总结,并提出了今后的 研究方向。
C)身份的识别
此外语音识别技术也可用来做身份的认证。就像指纹识别及人脸识别一样。 在某些重要的场所使用的门禁系统,同样可以使用语音来进行身份的确认。
所以说语音识别的研究是一项具有广阔的应用及重大意义的研究课题。
1.2语音识别的分类
语音识别有广义和狭义之分。广义的语音识别是指从语音信号中提取出任何 人们感兴趣内容的技术。而我们通常所说的语音识别指的是狭义的语音识别,也 即从语音信号中提取出文本内容的技术。也就是通过算法,将语音传换成文本 的过程。因此语音识别有如下的分类盥3。
human’S interaction with the machines.Voice can be used as an input method, and it will save people’S time and effort when they are inputting text on a computer. Besides,speech recognition can also be used to control some machines,like automobiles,airplanes or mobile phones.
华东师范大学硕fI:学位论文
第l章绪论
第1章绪论
1.1研究背景及意义
语言是人们用来进行同常交流,传递信息最为有效的一种工具。声音中包含 着各种各样的信息。由于大自然的进化,人类可以轻易地提取出语音信号中的各 种有用信息。
然而随着社会的发展和进步,人们除了相互之间要进行交流之外,还会大量 地接触到各种机器设备。如何让这些由计算机控制的机器也能听懂人类的语言, 成为了一项很有意义并且很具挑战性的研究课题。而语音识别的研究就是为了达 到这样的目的。
This thesis introduces some theories about speech recognition and also presents
the results of some experiments of improving the speech recognition algorithms.In
>说话人识别 说话人识别也就是根据一段未知的语音来判断说话者是谁。而语音信号 中的文字内容则并不重要。这种语音识别就可以用来做身份的认证。
>说话内容的识别 说话内容的识别就是本文所要研究的内容。 此外说话内容的识别又可以根据不同的标准划分成好几类 ·根据要识别的语音信号中的词是连续的还是词与词之间有明显间隔 的可分为:连续词的语音识别和孤立词的语音识别。 ·根据识别任务中词汇量的大小有可分为 a)小词汇量: 词汇量小于100 b)中词汇量: 词汇量在100和1000之间
我国的语音识别研究开始的比较晚。但是近年来发展也很快。我国的863计 划还为语音识别研究专门立项。我国的一些研究机构,如清华大学电子工程系及 中科院声学所都有在语音识别方面取得不错的成果。
1.4本文研究内容及组织结构
本文主要的研究内容有:语音信号的特征提取及不同特征对识别结果的影 响;在一个大词汇量非特定人的英文连续语音识别任务中,讨论了如何用隐马尔 可夫模型对语音信号建模,包括建模单元的选取,模型参数的优化。其中包括了,
2
华东帅范人学硕J:学位论文
第1章绪论wenku.baidu.com
c)大词汇量大于1000 d)无限词汇量识别任务中的词可能是任何词 ·根据待识别的语音信号是有某个特定人发出的还是不确定的某个人
发出的,又可分为
a)特定人的语音识别:所有被识别的语句均有某个特定的人产生 b)非特定人的语音识别:待识别的语句不确定是由谁产生
通常来说,词汇量越大识别难度越大,连续词的识别比孤立词的识别难度大, 非特定人的识别比特定人的识别难度大。
chapter 2 we describe the processing of the speech signal and the feature extraction.
We mainly focus on two types of features and make comparison between them when
recognition is of great significance,as it's one of the important research fields in paRern recognition and has lots of application.For example,it will facilitate
are used to carry out the experiments of large vocabulary speaker-independent
continuous speech recognition.
KEY WORD:Speech recognition,Hidden markov model,htk,TIMIT
recognition using hidden markov model.The structure of a continuous speech
recognition system is introduced and we also discuss several topics like,how to
此前的语音识别主要采用模板匹配的方法,多用于进行孤立词的识别。在80 年代以后,随着一些新的算法如:二层动态规划算法哺3等的提出,把研究重点转 向了连续语音识别。随着rabiner等人将隐马尔可夫模型盯3引入到语音识别领域, 使得基于隐马尔可夫模型的语音识别研究成为之后的研究重点。
此后不少的公司,学校,科研机构都有研发出自己的语音识别系统, 如CMU 的sphinx系统,IBM的viavoice等。
关键词:语音识别,HMM,隐马尔可夫模型,HTK,TIMIT
华东师范大学硕J二学位论文
ABSTRACT
ABSTRACT
Generally speaking,speech recognition is a process,through which the speech signal is converted into text.It goes without saying that the research on speech
本文对语音识别的一些基本理论及算法进行了一些研究和实验。首先在第 二章对语音信号的处理及特征提取进行了介绍,简要的介绍了两种常见的特征 提取方法,并且比较了两种特征在用于孤立词的识别时性能的差异。接下来讨 论了基于隐马尔可夫模型(Hidden Markov Model)的语音识别算法。在利用隐马 尔可夫模型进行孤立词识别的基础上,尝试将该模型用于英文连续词的语音识 别。该部分内容中介绍了一个连续语音识别系统的构成,讨论了对声学建模单 元的选取,模型参数的改进,识别算法以及统计语言模型的使用,并且介绍了一 个语音识别工具HTK。利用该工具在一个大词汇量非特定人的连续语音数据库 TIMIT上进行相关的实验。