语音合成论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
姓名:孙亚非学号:201120195010摘要:本文介绍了语音合成技术的发展过程及其现状,及其目前常用的一一些合成的方法(共振峰合成,LPC参数合成,PSOLA合成技术,LMA声道模型)。还介绍了语音合成技术的一些应用。
关键词:语音合成;LPC;PSOLA;LMA;应用
Abstract:The article describes the development progress of a speech synthesis technology and the status quo ,and the most commonly used synthetic methods(Formant synthesis ,LPC parameter synthesis ,PLOSA synthesis technology ,LMA-channel model).Also describes some applications of speech synthesis technology.
Keywords:speech synthesis; LPC;PSOLA;LMA; application
1.前言
语音合成[1]是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。语音合成是人机语音通信的一个重要组成部分。语音合成研究的目的是制造一种会说话的机器,它解决的是如何让机器象人那样说话的问题,使一些以其它方式表示或存储的信息能转换为语音,让人们能通过听觉而方便地获得这些信息。
语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。语音合成,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。
2.发展历程及其现状的概述[1,2,5]
纵观语音合成技术的研究已有二百多
年的历史,早在现代电子信号处理技术发明以前,人们就开始试图建造发出人类语音的机器和机械设备,比如Gerbert、Albertus Magnus和Roger Bacon制造的“speaking head”。以后又有人制造出可以发出元音和辅音的机器。
1930年,贝尔实验室开发了声音编码器。这是一个用键盘操作的电子语音分析器和合成器。第一个基于计算机的语音合成系统在50年代后期诞生。第一个完整的TTS系统在1968年完成。从那时起,语音合成技术经历了各种各样的改进。在语音合成技术的发展过程中,早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。
2.1参数合成
在语音合成技术的发展中,早期的研究主要是采用参数合成方法。值得提及的是Holmes的并联共振峰合成器(1973)和Klatt 的串/并联共振峰合成器(1980),只要精心调整参数,这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk(1987)。但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。
2.2波形拼接
自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(PSOLA)方法的提出(1990),使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成
系统的自然度要高,并且基于PSOLA方法的
合成器结构简单易于实时实现,有很大的商用前景。国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同步发展。大致也经历了共振峰合成、LPC 合成至应用PSOLA技术的过程。在国家863计划,国家自然科学基金委,国家中国科学院有关项目等支持下,汉语文语转换系统研究近年来取得了令人举目的进展,其中不乏成功的例子:如中国科学院声学所的KX-PSOLA(1993), 联想佳音(1995);清华大学的TH_SPEECH (1993);中国科技大学的KDTALK(1995)等系统。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术,其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其它语种的文语转换系统一样,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术的大规模进入市场。
3. 语音合成技术常用方法及其比较3.1共振峰合成[1]
语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。在图1所示的某一语言的频率响应图中,标有Fp1、Fp2、Fp3... 处为响应的极点,此时,声道的传输频率响应有极大值。习惯上,把声道传输频率响应上的极点称为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。
基于共振峰的理论有以下三种实用模型。
(1)级联型共振峰模型。在该模型中,声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。
(2)并联型共振峰模型。许多研究者认为,对于鼻化元音等非一般元音以及大部分辅音,上述级联型模型不能很好地加以描述和模拟,因此,构筑和产生了并联型共振峰模型。
(3)混合型共振峰模型。在级联型共振峰合成模型中,共振峰滤波器首尾相接;而在并联型模型中,输入信号先分别通过幅度调节再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。将两者比较,对于合成声源位于声道末端的语音(大多数的元音),级联型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于合成声源位于声道中间的语音(大多数清擦音和塞音),并联型则比较合适,但是其幅度调节很复杂。基于此种考虑,人们将两者结合在一起,提出了混和型共振峰模型。如图2所示:
事实上,上述三种共振峰模型在实际中都得到了成功的应用。例如:Fant 的OVE 系统就采用了级联型的共振峰模型;Holmes 合成器采用的是并联型的共振峰模型;而最为典型也是最为成功的Klatt 合成器则构筑在混合型共振峰模型的基础之上。在汉语语音合成方面,研究人员研制出了一些基于共振峰模型的成功的应用系统。如社科院语言所的 SIFS 合成器、中