语音信号处理作业1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号处理的发展历程及发展趋势
学号201105039
前言
在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。
近年来,普通电话、移动电话和互联网已经普及到家庭。
在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。
再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了。
语音信号处理的理论基础就是一般的数字信号处理理论,它的主要研究内容是语音编码和语音压缩技术。
语音信号是一门新兴的学科,同时又是综合性的多学科领域,是一门涉及面很广的交叉学科。
虽然从事这一领域研究的人员主要来自信息处理及计算机等学科,但是它与语音学,语言学,声学,认知科学生理学,心理学及数理统计等许多学科也有非常密切的联系
语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。
通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。
同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。
语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。
虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知学科、生理学、心理学等许多学科也有非常密切的联系。
语言是从千百万人的言语中历史地概括总结出来的规律符号系统,使人们用以进行思维、交际的形式。
语言是人类特有的功能,它创造和记载了几千年的人类文明历史。
语音是声音和意义的结合体,也是信息的载体。
语音信号处理是是研究用数字信号处理技术队语音信号进行处理,处理的目的是用于得到的某些参
数以便高效传输和存储;或者应用于人工合成、语音识别和语音增强等。
语音信号处理是一个新兴的的学科,同时又是综合性的多学科领域,是一门设计很广的交叉学科,它与语音学、语言学、声学,认知科学、心理学、心理学、数理统计学等许多学科也有着非常密切的联系。
自计算机诞生以来,通过语音与计算机交互一直是人类的梦想,随着计算机软硬件和信息技术的飞速发展,这不仅对语音信号数字处理提出了越来越高越来越迫切的需求,如实现用语音输入代替键盘输入实现人工智能和交互,同时也为语音信号处理提供了高效软硬件实现的可能性。
语音信号处理的发展历程
语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。
语言也是人与机器之间进行通信的重要工具,可为信息处理系统建立良好的人机交互环境,可以更好地实现人工智能,为信息社会的构建是至关重要的。
20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。
在方法上,随着电子计算机的发展,以往的以硬件为中心的研究正逐渐转化为以软件为基础的研究,即计算机的软件模拟取代了硬件研制的传统做法。
各种新的思想和方法不断涌现,语音信号处理也取得了重大的进展。
在整个20世纪70年代,有几项研究成果对语音信号处理技术的进步和发展产生了重大的影响。
70年代初由Itakura提出的动态时间规划(DTW)技术是语音识别研究方面开辟了新思路,一种模式匹配和模型训练技术,它应用动态规划的思想成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能,且由于DTW算法计算量较少、无需前期的长期训练,很容易将DTW算法移植到单片机、DSP上实现语音识别且能满足实时性要求,其在孤立词语音识别系统中仍然得到了广泛的应用。
70年代中期提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;70年代末Linda、Buzo、Gray和Markel等人提出了一种新的基于聚类分析的高效数据压缩技术——矢量量化(VQ)应用于语音信号处理中,它
不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用,而且也很快推广到其他领域。
20世纪80年代,由于矢量量化、隐马尔可夫模型(HMM)和热工神经网络等相继被应用与语音信号处理,应经过不断的改进和完善,使语音信号处理技术有了突破性的进展。
80年代产生的HMM是语音信号处理技术的重大发展,它是语音信号的一种统计模型,它描述语音信号过程的产生,而且HMM已构成了现代语音识别研究的重要基石,也是目前语音识别技术等地主流研究途径。
其理论基础是1970年前后由Baum等人建立起来的。
20世纪90年代以来,语音信号处理在实用化处理方面取得了实质性的进展,其中,语音识别逐渐由实验室走向实用化。
而且,关于文本——语音自动转化系统(TTS)近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。
语音信号处理的发展趋势
语音编码已经比较成熟,有很多现成标准。
语音合成已有比较成熟的方案,国内如科大讯飞的。
语音降噪技术发展也很多年,主要分为去除平稳噪声的单麦克风降噪,以及抑制方向性噪声的双麦克风降噪。
总体而言,以feature形式存在居多,难以从根本上提高语音质量。
毕竟,什么信号处理技术也难以和人耳听觉系统的处理能力相比啊。
回音消除技术严格说来,应该属于音频信号处理。
不过其中的残余回声抑制,属于语音信号处理。
可以看成是语音降噪技术的一种扩展,跟单麦克和双麦克方式都有一定的联系。
这个目前在VOIP技术中已经应用广泛,可提高余地已经不大。
语音识别技术目前的技术框架主要基于模式识别,对数据的匹配性要求很高,对方言,口音,以及口语的处理能力还存在很大的瓶颈。
对于标准口音,还是可以处理的,不过也需要用户不低的配合度。
1 语音信号处理的关键技术
语音信号处理的理论基础就是一般的数字信号处理理论, 它的主要研究内容是语音编码和语音压缩技术。
考虑到人对听觉媒体的感应特点, 研究语音信号处理必须与声音心理学联系起来。
因此这里我们把声音心理学也列为语音信号处理的关键技术之一。
(1)声音心理学
声音的物理属性和心理属性既有联系也有区别。
声音有两个最明显的量纲, 即响度和音调, 其它还有音色、谐和、不谐和和乐音等等。
物理属性主要有强度和频率。
声音的正弦波的强度增加, 声的响度也增加; 频率增加, 音调则增高。
但这些关系不是线性的, 且是耦合的, 如频率的变化既影响响度也影响音调。
其数量上的关系可以用等响曲线等来描述。
但更精确。
关系复杂, 难以建立量化模型。
如即使想从客观上给出声音失真度的度量都很困难。
人的大脑处理听觉信息还有一些特性,产生了一些客观存在的效应, 如屏蔽效应。
声的响度不仅取决于自身的强度和频率, 而且也依同时出现的其它声音而定。
各种声音可以互相掩蔽, 一种声音的出现可能使得另一种声音难于听清。
它分为听觉屏蔽、频谱屏蔽和瞬态屏蔽。
频谱屏蔽是高电平音调使附近频率的低电平声音不能被人耳听到。
声音的屏蔽特性可以用于声音特别是语音信号的压缩。
(2)语音编码
语音编码分为三类: 波形编码、参量编码和混合编码。
波形编码是将时域信号直接变换为数字代码, 其目的是尽可能精确地再现原来的话音波形。
自适应量化、自适应比特分配和矢量量化等等。
2 在语音识别与合成中的应用
语音识别的研究是从20 世纪50 年代开始的, 但直到60 年代中期才取得了实质性进展, 其重要标志就是日本学者Itakura 将动态规划算法用于解决语音识别中语速多变的难题, 提出了动态时间收缩算法(DTW:Dy2nam ic TimeW arping)。
其基本思想是: 在训练阶段, 从词汇表中通过语音信号处理技术提出每个词的特征向量(时域特征、频域特征、尺度特征及联合分布特征), 作为标准模板存入模板库中。
在识别阶段, 将输入语音的特征向量依次与模板库中的各个标准模板进行比较, 计算类似度, 将类似度最高的标准模板所对应的词汇输出。
在这里和一般的模式识别不一样, 存在几个问题: 说话者语速不一致的问题; 大词汇表的问题导致计算量大的问题; 协同发音的问题(即同一音素的发音随上下文不同而变化); 对于非特定人语音识别, 还有一个语音多变性的困难。
语音识别的这些问题, 除了在优化算法上应有所突破外, 一个最根本的问题是语音特征量的提取问题。
目前能够用于模板匹配的特征向量还不能达到少而精的要求。
能够反映特定人和非特定人在语速变化下的不变特征量、在连续语音
识别中的协同发音不变量等特征量还有待进一步的研究。
这些工作的进展依赖于语音信号处理技术及一般的信号处理技术的突破。
语音合成技术就是所谓“会说话的机器”。
它可分为三类: 波形编码合成、参数式合成和规则合成。
波形编码合成以语句、短语、词或音节为合成单元。
合成单元的语音信号被录取后直接进行数字编码, 经数据压缩组成一个合成语音库。
重放时根据待输出的信息, 在语音库中取出相应的合成单元的波形数据, 将它们连接在一起, 经解码还原成语音。
参数式合成以音节或音素为合成单元。
首先对所有待合成单元的语音进行分析, 提取有关语音参数, 将其编码后组成合成语音库。
输出时根据待合成的语音信息从语音库中取出相应的合成参数, 经编辑和连接, 顺序送入语音合成器。
语音合成器在合成参数的控制下, 重新还原语音波形。
规则合成则是通过语音学规则产生语音。
3 多媒体数据库中的语音数据检索
所谓基于内容检索就是从语音媒体数据中提取出特定的信息线索, 然后根据这些线索从大量存储在数据库中的语音媒体中进行查找, 检索出具有相似特征的语音数据。
语音的音调、含义等是难以用符号化方法描述的信息线索。
人能够理解语音的含义, 但要利用这些语义线索对语音数据库进行检索就不得不在建立数据库时就事先输入并与媒体数据一起存储对应的字符信息, 对这些语音的语义进行描述。
在检索时, 由人把这些语义再转换为相应的字符, 根据字符的匹配查找相应的媒体息。
很显然, 这个转换过程妨碍了有效地交互, 被称为“转换障碍”, 很难满足用户的各种需求。
对设计者来说, 给语音数据赋予能够表示全部语义特征的关键词也非常困难, 这与个人的经验、知识和对语音信息的理解程度相关, 而且也并不是所有对象的所有特征都能用字符来描述。
基于内容检索就是要从媒体中直接地提取媒体的语义线索, 根据这些语义线索进行检索。
这就把检索过程与语义的提取直接地联系到了一起, 使得检索过程更加有效和适应性更强。
基于内容的语音检索是一种集成综合技术, 不仅要确定是否能够找到, 而且还要确定相应的输入输出方法、存储方法、媒体间的组织方法等。
它建立新的媒体数据表示方法和数据模型, 采用有效和可靠的查询处理算法,使用户可以在智能化的查询接口的辅助下完成查询检索工作。
基于内容的语音检索技术一般
用于多媒体数据库中, 也可以单独的建立应用系统, 如语音库系统。
该检索系统一般包括: 插入系统, 特征提取子系统, 数据库, 查询子系统。
其中特征提取子系统其基本原理在时间轴上对模拟话音按一定的速率抽样, 然后将幅度样本分层量化并用代码表示。
对于比特速率较高的编码信号, 波形编码技术能够提供相当好的话音质量, 但对于低速率语音编码信号, 波形编码的话音质量显著下降。
参量编码是将信源信号在频率域或其它正交变换域提取特征参量, 并将其变换为数字代码进行传输。
它是以发音机制的模型作为基础, 用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个编码。
这种编码技术能实现低速率语音编码。
下面将要重点介绍的线性预测编码(LPC)和它的各种改进型都属于参量编码。
混合编码是近年来提出的, 它将波形编码和参量编码结合起来, 力图保持波形编码的高质量和参量编码的低速率的优点。
它既包括若干语音特征参量又包括部分波形编码信息。
现代数字信号处理的进步都能在语音信号处理技术中得到应用。
语音信号是最能体现信号非线性的一个领域。
现代数字信号处理的一个主要发展趋势是对非线性、非平稳信号的研究。
因此, 循环平稳信号分析、多谱分析和时频尺度理论对于语音信号的表示,关键特征的捕捉有很重要的应用前景。
在此基础上, 结合语音语义理论的研究, 开展多层次的语音信号的表示将对语音信号的应用有重要价值。
目前,语音理解技术开始使计算机丢掉了键盘和鼠标,人们对语音理解的研究重点正拓展到特定应用领域的自然语音理解上。
一些基于口语识别、语音合成和机器翻译的专用性系统开始出现,如信息发布系统、语音应答系统、会议同声翻译系统、多语种口语互译系统等等,正受到各方面越来越多的关注。
这些系统可以按照人类的自然语音指令完成有关的任务,提供必要的信息服务,实现交互式语音反馈。
语音是语言的声学表现形式,是最符合人类自然习惯的一种人际信息传播方式,具有便捷性、高效性、随机性、交互性等显著特点,是实现人机交互的一种重要通信方式。
可以预见,随着计算机技术、数字信号处理技术和大规模集成电路的迅速发展,语音信号数字处理技术将成为信息化战争不可或缺的重要组成部分,并直接进入到信息化战争的前沿。