语音识别技术综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音辨别技术综述

语音辨别技术综述

电子信息工程2010 级 1 班郭珊珊

【纲要】跟着计算机办理能力的快速提升,语音辨

别技术获得了飞快发展,该技术的发展和应用改变了人们的生产和生活方式,正逐渐成为计算机办理技术中的要点技术。语音技术的应用已经成为一个拥有竞争性的新兴高技术家产。

【要点词】语音辨别;语音辨别原理;语音辨别发展;产品

语音辨别是以语音为研究对象,经过语音信号办理和模式辨别让机器人自动辨别和理解人

类口述的语言。语音辨别技术就是让机器经过辨别和理解过程把语音信号转变成相应的命令或文本的高新技术。

1语音识其余原理

语音辨别系统本质是一种模式辨别系统,包含特色提取、模式般配、参照模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识

别系统的输入端,第一经过预办理,再依据人

的语音特色成立语音模型,对输入的语音信号进

行剖析,并抽取所需特色,在此基础上成立语音

辨别所需的模板。

计算机在辨别过程中要依据语音识其余模型,

将计算机中寄存的语音模板与输入的语音信号的特色进行比较,依据必定的搜寻和般配策略,找出一系列最优的与输入语音般配的模板。而后依据此

模板的定义,经过查表可给出计算机的辨别结果。这类最优的结果与特色的选择、语音模型的利害、模板能否正确都有直接的关系。

2语音辨别系统的分类

语音辨别系统能够依据对输入语音的限制

加以分类。

2.1 从说话者与辨别系统的有关性考虑

能够将辨别系统分为 3 类: (1) 特定人语音

辨别系统:仅考虑关于专人的话音进行识

别; (2) 非特定人语音系统:识其余语音与人

没关,往常要用大批不一样人的语音数据库对

别系统进行学习; (3) 多人的辨别系统:往常

能辨别一组人的语音,或许成为特定组语音辨

别系统,该系统仅要求对要识其余那组人的语

音进行训练。

2.2 从说话的方式考虑

也能够将辨别系统分为 3 类: (1) 孤立词语音辨别系统:孤立词辨别系统要求输入每个词后要停留; (2) 连结词语音辨别系统:连结词输入系统要求对每个词都清楚发音,一些连音现象开始出现; (3) 连续语音辨别系统:连续语音输入是自然流畅的连续语音输入,大批连音和变音会出现。

2.3 从辨别系统的词汇量大小考虑

也能够将辨别系统分为 3 类: (1) 小词汇量

语音辨别系统。往常包含几十个词的语音辨别

系统。 (2) 中等词汇量的语音辨别系统。往常

包含几百个词到上千个词的辨别系统。 (3) 大词汇量语音辨别系统。往常包含几千到几万个

词的语音辨别系统。跟着计算机与数字信号办

理器运算能力以及辨别系统精度的提升,辨别

系统依据词汇量大小进行分类也不停进行变化。目前是中等词汇量的辨别系统到未来可能就是小词汇量的语音辨别系统。这些不一样的限制也确立了语音辨别系统的困难度。

3语音辨别技术的发展

3.1 外国研究历史及现状

50

语音识其余研究工作能够追忆到

年月 AT&T贝尔实验室的Audry

20 世纪

系统,它是

第一个能够辨别十个英文数字的语音辨别系

统。

但真切获得本质性进展,并将其作为一个

重要的课题展开研究则是在60 年月末 70 年月初。这第一是因为计算机技术的发展为语音识其余实现供给了硬件和软件的可能,更重要的是语音信号线性展望编码( LPC)技术和动向时间

规整( DTW)技术的提出,有效的解决了语音

信号的特色提取和不等长般配问题。这一期间的语音辨别主要鉴于模板般配原理,研究的领域限制在特定人,小词汇表的孤立词识

别,实现了鉴于线性展望倒谱和DTW技术的特

定人孤立词语音辨别系统;同时提出了矢量量

化 (VQ)和隐马尔可夫模型 (HMM)理论。

跟着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识其余拘束条件需要放

宽,与此同时也带来了很多新的问题:第一,

词汇表的扩大使得模板的选用和成立发生困难;

第二,连续语音中,各个音素、音节以及词之

间没有显然的界限,各个发音单位存在受上下

文激烈影响的共同发音

(Co-articulation )现象;第三,非特定人辨

别时,不一样的人说相同的话相应的声学特色

有很大的差别,即便相同的人在不一样的时间、生理、心理状态下,说相同内容的话也会有很

大的差别;第四,识其余语音中有背景噪声或

其余扰乱。所以原有的模板般配方法已不再合用。

实验室语音辨别研究的巨大打破产生于

20 世纪 80 年月末:人们终于在实验室打破了

大词汇量、连续语音和非特定人这三大阻碍,

第一次把这三个特征都集成在一个系统中,比

较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的 Sphinx 系统,

它是第一个高性能的非特定人、大词汇量连续

语音辨别系统。

这一期间,语音辨别研究进一步走向深

入,其明显特色是 HMM模型和人工神经元网络(ANN)在语音辨别中的成功应用。 HMM模型的宽泛应用应归功于 AT&TBell 实验室 Rabiner 等科学家的努力,他们把本来晦涩的 HMM纯数学模型工程化 , 进而为更多研究者认识和认识,进而使统计方法成为了语音辨别技术的主流。

统计方法将研究者的视野从微观转向宏观,不再故意追求语音特色的细化,而是更多地从

整体均匀(统计)的角度来成立最正确的语

音辨别系统。在声学模型方面,以 Markov 链为基础的语音序列建模方法 HMM(隐式 Markov 链)比较有效地解决了语音信号短时稳固、长

不时变的特征,并且能依据一些基本建模单元

结构成连续语音的句子模型,达到了比较高的

建模精度和建模灵巧性。在语言层面上,经过

统计真切大规模语料的词之间同现概率即 N 元统计模型来区分辨别带来的模糊音和同音词。

此外,人工神经网络方法、鉴于文法例则的语

言办理体制等也在语音辨别中获得了应用。

相关文档
最新文档