语音信号处理综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号处理综述
摘要:随着信息技术的发展,语音信号处理技术不断地融入到各个领域。作为21世纪信息技术领域最重要的科学技术之一,它成为了人机接口的关键技术,并且越来越受到人们的重视。本文介绍了国内外语音技术的相关发展及该技术在通讯,家具,导航等领域的应用。并对他们的语音技术的优缺点进行了总结。
关键词:语音技术通讯
Review of Speech Signal Processing
Abstract: With the development of information technology, the Automatic Speech Recognition (ASR) constantly into the fields. The ASR which is one the most important technology in information fields and it is the key technology of the man-machine interface, and which is more and more appreciated by people. The text introduces the development and application in communication, household and navigation of the ASR. I summer the advantages and disadvantages of their ASR.
Key words: ASR communication
一、研究语音信号处理技术的背景及其意义
随着人们进入信息时代,人们的生活、学习、工作领域也越来越智能化。作为人和这些领域沟通的关键接口,语音信号处理技术自然引起里人们的足够重视。该技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高级技术。通过该技术人们可以不通过键盘的输入过程而直接通过语音进行操作,并且语音技术的应用已经成为一个具有竞争性的新兴高技术产业。如今,语音技术相关产品已经成为了我们生活的一部分,它的作用越来越被重视,人们对当前语音技术的提高也是越来越期待。
二、语音处理系统的分类
(1)按发音方式分为孤立词、连接词和连续语音的语音识别系统。语音识别系统可能要求说话者以单字、单词、或是短语为发音单位,其间就必须要略微停顿,否则识别就会有问题。以前的语音识别系统,几乎都是以单字或单词为
单位的孤立语音识别系统,随着连续语音识别技术渐趋成熟,连续词和连续语音这个最自然的说话方式,将成为语音识别系统的主流。
(2)按词汇量大小分为小词表、中词表和大词表以及无限词汇量语音识别系统。如果语音识别系统只为你进行电话拔号,那它只要能听懂10个数字就行了,这属于小词汇量语音识别系统;如果它是为你自动转接话务,那它还应识别单位名、人名和时间等成千上百的词和字,这属于中等词汇量语音识别系统;如果它是把1篇口述的演讲报告转换成为文字,这属于大词汇量语音识别系统。
(3)按说话人适应范围分为特定人、限定人和非特定人语音识别系统。特定人系统是指系统在使用前必须由用户输入大量的发音数据、对其进行训练。非特定人系统则试图达到在系统构建成功之后,用户需要事先输入大量的训练数据,即可使用的目的。
三、语音信号处理技术研究现状
语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的系统,它是第一个可以识别十个英文数字的语音识别系统。
但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和马尔可夫模型(HMM)理论。
随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很
大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。
实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。
这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。
统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。
20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。其中IBM公司于1997年开发出汉语语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice'98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。
我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项。目前中科院自动化所、声学所、清华大