语音信号的发展和研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号的研究和发展
在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。
近年来,普通电话、移动电话和互联网已经普及到家庭。
在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。
再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了。
语音信号处理的理论基础就是一般的数字信号处理理论,它的主要研究内容是语音编码和语音压缩技术。
语音信号是一门新兴的学科,同时又是综合性的多学科领域,是一门涉及面很广的交叉学科。
虽然从事这一领域研究的人员主要来自信息处理及计算机等学科,但是它与语音学,语言学,声学,认知科学生理学,心理学及数理统计等许多学科也有非常密切的联系
20世纪60年代中期形成的一系列数字信号处理方法和算法,如数字滤波器,快速傅里叶变换(FFT)等是语音信号数字处理的理论和技术基础。
进入70年代之后,语音技术取得了许多实质性的进展;用于语音信号的信息压缩和特征提取的线性预测技术(LPC),已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析,合成及各个应用领域;用于输入语音与参考样本之间时间匹配的动态规划方法。
80年代初一种新的基于聚类分析的高效数据压缩技术——矢量量化(VQ)应用于语音信号处理中;而用隐式马尔可夫模型(HMM)
描述语音信号过程的产生是80年代语音信号处理技术的重大进展。
近代来人工神经网络的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一;同时,它的许多成果,也体现在有关语音的各项应用之中,尤其语音识别时神经网络的一个重要应用领域。
现代数字信号处理的进步都能在语音信号处理技术中得到应用。
语音信号是最能体现信号非线性的一个领域。
现代数字信号处理的一个主要发展趋势是对非线性、非平稳信号的研究。
因此,循环而平稳信号分析、多谱分析和时频尺度理论对于语音信号的表示,关键特征的捕捉有很重要的应用前景。
语音信号数字处理应用
1语音编码技术(Speech Coding Technology)
在语音信号数字处理过程中,语音编码技术是至关重要的,直接影响到话音存储、语音合成、语音识别与理解。
语音编码是模拟语音信号实现数字化的基本手段。
语音信号是一种时变的准周期信号,而经过编码描述以后,语音信号可以作为数字数据来传输、存储或处理,因而具有一般数字信号的优点。
语音编码主要有三种方式:波形编码、信源编码(又称声码器) 和混合编码,这三种方式都涉及到语音的压缩编码技术。
通常把编码速率低于64 kbps的语音编码方式称为语音压缩编码技术。
如何在尽量减少失真的情况下,降低语音编码的比特数已成为语音压缩编码技术的主要内容。
换言之,在相同编码比特率下,如何取得更高质量的恢复语音是较高质量语音编码系统的要求。
2 语音合成技术(Speech Synthesis T echnology)
语音合成技术就是所谓“会说话的机器”。
它可分为三类:波形编码合成、参数式合成和规则合成。
波形编码合成以语句、短语、词或音节为合成单元。
合成单元的语音信号被录取后直接进行数字编码,经数据压缩组成一个合成语音库。
重放时根据待输出的信息,在语音库中取出相应的合成单元的波形数据,将它们连接在一起,经解码还原成语音。
参数式合成以音节或音素为合成单元。
3语音识别技术(Speech Recognition Technology)
语音识别又称语音自动识别(Automated Speech Recognition,ASR),语音识别基于模式匹配的思想,从语音流中抽取声学特征,然后在特征空间完成模式的比较匹配,寻找最接近的词(字)作为识别结果。
几十年来,语音识别技术经历了从特定人(Speaker Dependent,SD)中小词汇量的孤立词语和连接词语的语音识别到非特定人(Speaker Independent,SI) 大词汇量的自然口语识别的发展历程。
尽管如此,语音识别技术要走出实验室、全面融入人们的日常生活还需假以时日。
当使用环境与训练环境有差异时,如在存在背景噪声、信道传输噪声、说话人语速和发音不标准等情况下,识别系统的性能往往会显著下降,无法满足实用的要求。
环境噪声、方言和口音、口语识别已经成为目前语音识别中三个主要的新难题。
4、语音理解技术(Language Understanding Technology)
语音理解又称自然语音理解(Natural Language Understanding,
NLU),其目的是实现人机智能化信息交换,构成通畅的人机语音通信。
目前,语音理解技术开始使计算机丢掉了键盘和鼠标,人们对语音理解的研究重点正拓展到特定应用领域的自然语音理解上。
一些基于口语识别、语音合成和机器翻译的专用性系统开始出现,如信息发布系统、语音应答系统、会议同声翻译系统、多语种口语互译系统等等,正受到各方面越来越多的关注。
这些系统可以按照人类的自然语音指令完成有关的任务,提供必要的信息服务,实现交互式语音反馈。
语音是语言的声学表现形式,是最符合人类自然习惯的一种人际信息传播方式,具有便捷性、高效性、随机性、交互性等显著特点,是实现人机交互的一种重要通信方式。
可以预见,随着计算机技术、数字信号处理技术和大规模集成电路的迅速发展,语音信号数字处理技术将成为信息化战争不可或缺的重要组成部分,并直接进入到信息化战争的前沿。