语音合成系统研究

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

电子知识

语音合成系统(2)语音合成(7)

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术

语音合成技术

语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。和语音识别相比，语音合成的技术相对说来要成熟一些，并已开始向产业化方向成功迈进，大规模应用指日可待。

语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统)，如磁带录音机，是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”。

文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言，除了依赖于各种规则，包括语义学

规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这也涉及到自然语言理解的问题。下图显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列，再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。因此一般说来，文语转换系统都需要一套复杂的文字序列到音素序列的转换程序，也就是说，文语转换系统不仅要应用数字信号处理技术，而且必须有大量的语言学知识的支持。

TTS的基本结构

语言学处理

在文语转换系统中起着重要的作用，主要模拟人对自然语言的理解过程——文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后两部分所需要的各种发音提示。

韵律处理

为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。

声学处理

根据前两部分处理结果的要求输出语音，即合成语音。

参数合成

在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980)，只要精心调整参数，这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk(1987)。但是经过多年的

研究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。

波形拼接

自八十年代末期至今，语言合成技术又有了新的进展，特别是基音同步叠加(PSOLA)方法的提出(1990)，使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高，并且基于PSOLA方法的合成器结构简单易于实时实现，有很大的商用前景。

IBIS模型是一种基于V/I曲线对I/O BUFFER快速准确建模方法，是反映芯片驱动和接收电气特性一种国际标准，它提供一种标准文件格式来记录如驱动源输出阻抗、上升/下降时间及输入负载等参数，非常适合做振荡和串扰等高频效应计算与仿真。

IBIS本身只是一种文件格式，它说明在一标准IBIS文件中如何记录一个芯片驱动器和接收器不同参数，但并不说明这些被记录参数如何使用，这些参数需要由使用IBIS模型仿真工具来读取。欲使用IBIS进行实际仿真，需要先完成四件工作：获取有关芯片驱动器和接收器原始信息源；获取一种将原始数据转换为IBIS格式方法；提供用于仿真可被计算机识别布局布线信息；提供一种能够读取IBIS和布局布线格式并能够进行分析计算软件工具。

IBIS模型优点可以概括为：在I/O非线性方面能够提供准确模型，同时考虑了封装寄生参数与ESD结构；提供比结构化

方法更快仿真速度；可用于系统板级或多板信号完整性分析仿真。可用IBIS模型分析信号完整性问题包括：串扰、反射、振荡、上冲、下冲、不匹配阻抗、传输线分析、拓扑结构分析。IBIS尤其能够对高速振荡和串扰进行准确精细仿真，它可用于检测最坏情况上升时间条件下信号行为及一些用物理测试无法解决情况；模型可以免费从半导体厂商处获取，用户无需对模型付额外开销；兼容工业界广泛仿真平台。

IBIS模型核由一个包含电流、电压和时序方面信息列表组成。IBIS模型仿真速度比SPICE快很多，而精度只是稍有下降。非会聚是SPICE模型和仿真器一个问题，而在IBIS仿真中消除了这个问题。实际上，所有EDA供应商现在都支持IBIS模型，并且它们都很简便易用。大多数器件IBIS模型均可从互联网上免费获得。可以在同一个板上仿真几个不同厂商推出器件。

IBIS模型优点可以概括为：在I/O非线性方面能够提供准