语音信号处理的未来发展和应用前景——大作业程盛强

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音信号处理的未来发展和应用前景

程盛强 071430115

【摘要】:随着电子计算机和人工智能机器的广泛应用,人们发现,人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式,要机器听懂人讲话,并能说出话来,需要做很多工作,这就是科学工作者研究了几十年

的语音识别和语音合成技术。

【关键字】:语音信号处理,应用,发展,语音识别,语音压缩

正文

当今世界正处于工业时代向信息时代的飞速转变时刻,语音在人类社会中起了

非常重要的作用。随着电子购物、因特网络的普及、多媒体通信及其应用的蓬勃发展,语音始终是人类互相交流、互相通信的最主要、方便、快捷的信息载体。

语音在人类社会中起了非常重要的作用。在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。随着移动通信的迅猛发展,人们可以随时随地通过电话交流,其中语音压缩编码技术发挥着重要的作用。社会的不断的进步与发展让各种各样的机器更多的参与了人类的生产活动和社会活动,因此改善人和机器之间是人对机器的操纵更加便利就显得越来越重要。随着电子计算机和人工智能机器的广泛应用,人们发现,人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式,要机器听懂人讲话,并能说出话来,需要做很多工作,这就是科学工作者研究了几十年的语音识别和语音合成技术。上述这些应用领域构成了语音信号处理技术的主要研究内容。

近年来,普通电话、移动电话和互联网已经普及到家庭。在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机(又称听写机,将语音转换为文字)、语音翻译机等,已经不是梦想而是提到日程上的研究工作了。

语音信号处理是语音学与数字信号处理技术相结合的交叉学科,它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科联系紧密。语音信号处理技术的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促进这些学科的进步。语音信号处理是一门新兴的边缘学科,它是语音学和数字信号处理两个学科相结合的产物。它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科有着紧密的联系。语音信号处理的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促进这些领域的进步。语音信号处理的目

的就是要得到某些语音特征参数以便高效地传输或储存;或者是通过某种处理运算以达到某种用途的要求,例如人工合成语音、辨识出讲话者、识别出讲话的内容等。

20 世纪60 年代中期形成的一系列数字信号处理方法和算法, 如数字滤波器、快速傅里叶变换(FFT)是语音数字信号处理的理论和技术基础。而70 年代初期产生的线性预测编码(LPC)算法, 为语音信号的数字处理提供了一个强有力的工具。语音信号的编码和压缩是语音信号处理的主要内容。语音信号处理在通信、语音

识别与合成、自然语言理解、多媒体数据库以及互联网等多个领域有广泛的应用, 同时它对于理解音频类等一般的声音媒体的特点也有很大的帮助。对于移动通信来说, 最多的信息是语音信号, 语音编码的技术在数字移动通信中具有相当关键的作用, 高质量低速率的语音编码技术是数字移动网的永远的追求。所谓语音编码是信源编码, 它是将模拟语音信号变成数字信号以便在信道中传输。除了通信带宽的要求外, 计算机存储容量的限制也要求对语音信号进行压缩, 以满足海量数据情况下进行实时或准实时计算机处理的目的。

语音信号处理的关键技术

语音信号处理的理论基础就是一般的数字信号处理理论, 它的主要研究内容

是语音编码和语音压缩技术。考虑到人对听觉媒体的感应特点, 研究语音信号处理必须与声音心理学联系起来。因此这里我们把声音心理学也列为语音信号处理的关键技术之一。

(1)声音心理学

声音的物理属性和心理属性既有联系也有区别。声音有两个最明显的量纲, 即响度和音调, 其它还有音色、谐和、不谐和和乐音等等。物理属性主要有强度和频率。声音的正弦波的强度增加, 声的响度也增加; 频率增加, 音调则增高。但

这些关系不是线性的, 且是耦合的, 如频率的变化既影响响度也影响音调。其数量上的关系可以用等响曲线等来描述。但更精确。关系复杂, 难以建立量化模型。如即使想从客观上给出声音失真度的度量都很困难。

人的大脑处理听觉信息还有一些特性,产生了一些客观存在的效应, 如屏蔽效应。声的响度不仅取决于自身的强度和频率, 而且也依同时出现的其它声音而定。各种声音可以互相掩蔽, 一种声音的出现可能使得另一种声音难于听清。它分为听觉屏蔽、频谱屏蔽和瞬态屏蔽。频谱屏蔽是高电平音调使附近频率的低电平声音不能被人耳听到。声音的屏蔽特性可以用于声音特别是语音信号的压缩。(2)语音编码

语音编码分为三类: 波形编码、参量编码和混合编码。

波形编码是将时域信号直接变换为数字代码, 其目的是尽可能精确地再现原

来的话音波形。自适应量化、自适应比特分配和矢量量化等等。

2 在语音识别与合成中的应用

语音识别的研究是从20 世纪50 年代开始的, 但直到60 年代中期才取得了

实质性进展, 其重要标志就是日本学者Itakura 将动态规划算法用于解决语音识

别中语速多变的难题, 提出了动态时间收缩算法。其基本思想是: 在训练阶段,

从词汇表中通过语音信号处理技术提出每个词的特征向量(时域特征、频域特征、尺度特征及联合分布特征), 作为标准模板存入模板库中。在识别阶段, 将输入语音的特征向量依次与模板库中的各个标准模板进行比较, 计算类似度, 将类似度最高的标准模板所对应的词汇输出。在这里和一般的模式识别不一样, 存在几个问题: 说话者语速不一致的问题; 大词汇表的问题导致计算量大的问题; 协同发

音的问题(即同一音素的发音随上下文不同而变化); 对于非特定人语音识别, 还

有一个语音多变性的困难。

语音识别的这些问题, 除了在优化算法上应有所突破外, 一个最根本的问题是语音特征量的提取问题。目前能够用于模板匹配的特征向量还不能达到少而精的要求。能够反映特定人和非特定人在语速变化下的不变特征量、在连续语音识别中的协同发音不变量等特征量还有待进一步的研究。这些工作的进展依赖于语音信号处理技术及一般的信号处理技术的突破。语音合成技术就是所谓“会说话的

相关文档
最新文档