语音合成技术的发展

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语音合成技术的发展

纵观语音合成技术的研究已有二百多年的历史，早在现代电子信号处理技术发明以前，人们就开始试图建造发出人类语音的机器或机械设备

1930年，贝尔实验室开发了声音编码器。这是一个用键盘操作的电子语音分析器和合成器。1939年，Homer Dudley将其改进的设备在纽约世界博览会上展出。

第一个基于计算机的语音合成系统在50年代后期诞生，第一个完整的TTS 系统在1968年完成。从那时起至今，语音合成技术经历了各种各样的技术改进。真正有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要是让计算机能够产生高清晰度、高自然度的连续语音。近几十年来国际和国内的研究主要集中在按规则文语转换，即将书面语言转换成语音。在语音合成技术的发展中，早期的研究主要是采用参数合成方法。

但是经过多年的研究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。自八十年代末期至今，语言合成技术又有了新的进展，特别是1990年基音同步叠加方法的提出，使基于时域波形拼接方法合成的语音的音色和自然度都有了很大的提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高，并且结构简单易于实时实现，有较大的商用前景。

国内的汉语语音合成研究起步较晚，八十年代初期，国内汉语语音合成研究基本与国际上研究同步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA 技术的过程。在国家863计划、国家自然科学基金委、国家攻关计划、中国科学院有关项目等支持下，汉语文语转换系统研究近年来取得了令人举目的进展，其中不乏成功的例子：如1993年中国科学院声学所的KX-PSOLA、清华大学的TH_SPEECH；1995年联想佳音、中国科技大学的KDTALK等系统。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度达到了较高的水平。然而同国外其它语种的文语转换系统一样，这些系统合成的句子及篇章语音机器味较浓，其自然度还不能达到用户可广泛接受的程度，从而制约了这项技术的商品化。

近些年，一种新的基于数据库的语音合成方法得到了更广泛的应用。在这个方法中，合成语句的语音单元是从一个预先录下的语音数据库中挑选出来的，不难想象只要语音数据库足够大，包括了各种可能语境下的语音单元，理论上讲就有可能拼接出任何语句。由于合成的语音基元都是来自自然的原始发音，合成语句的清晰度和自然度都将会非常高。

语音合成技术研发与技术应用发展趋势同我国计算机技术的普及，网络、通信、广播电视等技术和业务的发展是同步的，可以说正是信息产业的迅猛发展推动了语音合成技术应用领域的发展和突破，进而刺激语音合成技术突飞猛进的发展。

语音合成技术在下一代语音门户网络、移动通信系统和信息化家庭网络平台的领域都将有广泛的应用。未来的语音合成技术，应将研究重点放在提高合成语音的自然度、丰富合成语音的表现力、降低语音合成技术的复杂度、多语种文语合成上。

使计算机能够真正像人一样的说话，和人类自由地交流，仍然有大量的研究工作要做。今天的文语转换系统只能机械地朗读文章，与生动活泼、感情丰富多彩的人类语言相比差距甚大。但是毋庸置疑，今天的语音合成技术确实已经走出实验室了，其成功的应用及潜在的

巨大市场已经让我们看到曙光。