201221计算机语音识别与合成技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
□艾散·帕合提
买尔丹·祖农
蔡亚永新疆工程学院计算机工程系
1计算机语音识别和合成技术的现状
人和人之间进行通信的最基本的方式就是通过语音的形式,如果实现了计算机和人之间的语音交互这一重大问题,那么产生的价值是不可估摸的。从20世纪六七十年代开始,全球诸多公司以及国家政府就斥巨资支持学术界对语音识别的探究。
计算机已经取得了显著的科技成果,同样的语音识别与合成技术也已经取得了丰硕的成果,并且已经在多项领域当中已经进入应用阶段。此外,在语音的识别方面,目前市场上已有一些识别软件的出售,如:中国科学院的识别系统,可以对有限词汇范围当中的1000个词以内进行任意的发音。然而在有噪音的情况下,通常识别率可以达到96%以上。中国科学院当中的开发的诸多声学系统均已被国家的诸多军事所采用,在坦克驾驶员口令操作以及军事演习方面都发挥了巨大的作用;IBM 公司的ViaVoice 系统,是一种可听写系统。在语音合成方面,中国科学院和联想公司合作开发的“联想佳音”是目前市场当中比较先进的电脑朗读系统;新加坡创痛公司生产的声霸卡可以在任意的声调条件下实现对英文文件的朗读。语音识别与合成技术的终极目标是通过计算机来对连续语音识别和无限词汇以及非特定输入进行实现。
2计算机语音识别与合成技术的方法研究
计算机对语音信号的处理是把信号进行离散化而且经过一定的编码。因此,为了能够对语音的重建不失真,离散化工作的采样频率要语音频带的至少两倍以上。我们把电话作为语音的研究对象,进行采样的频率最小要能够达到6800Hz ,也就是说每秒要达到6800个样点。一般认为,人的耳朵可听频率为5HZ~20KHZ ,那么从这点考虑,语音合成最高用10KHZ 来处理就能够取得较好的效果,通常采用8KHZ 采样频率,此外,如果是对语音量化的情况下,那么A/D 转换器只需要12位就足够了。但是,如果语音信号需要进行量化的话,所需要的位数达到12位即可。如果从实际考虑出发的话,如果达到8位就能够听懂经过合成的语音了。以这样算来的话,每秒进入计算机的信息量大约为8000×8=64kbps ,但是一个字长若为8位的话,所占的存储量则为8K ,这样的话也不会有太大的使用价值。所以,要
对语音信息进行一定的压缩,当然是在能够保证自然度和可懂度的情况下尽可能的实现压缩。
(1)波形编码法
在计算机语音识别与合成技术当中最常用的波形编码法是ADM 法和DM 法。而ADM 法当中的量化宽度是根据DM 当中的值进行固定的,所以如果出现超载噪声或者是粒状噪声,那么在ADM 法当中是不能够进行宽度值的变化的,而且他还有能够按照趋势跟踪的自我适应能力功能,这种方法有对噪声的自动抑制功能;DM 法的主要特点是能够按照波形进行相应的编码,作用是对下一个语音信号的值进行比较,是高还是低。低则显示给定编码
“0”;高则显示给定编码“1”。这样一来,要进行语音信号的编码,很明显要先对存储量进行节省,但是其音质要略差一点。
(2)录音编辑法
通过直接录制的方式把语音录制下来,并且还要把这些录制下来的语音经过连接结合在一起,编辑成文章,在输入到计算机内的时候不经过任何压缩处理,而是直接输出出来,但是这种方法需要有大量的存储器。
(3)规则合成法
这种方法是通过对预先规定的符号序列进行控制而产生的任意的语言方法,所用的单位是音素链以及音节,可以和任意的会话和单词进行合成,但缺点是语调比较差。
(4)参数编码法
目前来说最常用的参数编码法主要的有LCLPC 法、LPC 法以及FORM ANT 法和PARCOR 法等等,其中,LPC 法采用的是一线性预测编码的形式,通常进行波形采样的帧为10ms-25ms ,一帧之内为一线性不变系统,但是各个帧之间的参数是经常进行变化的。在帧当中抽取原始的语音作为清音、音调周期以及浊音能量和帧平均能量等若干个小于二乘预测系数,在存储器当中的各个帧当中进行叙述,然后在语音合成的时候才开始对这些参数进行综合。LPC 法用的是3-7位的方式对所有的编码进行处理,并且在各个数值之间进行自动插补和运算,这种方式合成的语音的音质动听柔美。
对语音识别与合成技术的研究至今已有近50年的历史,其应用领域的广泛按照应用范围大致分为以下几种:电脑语音报警器、电脑报站机、文本阅读系统以及语音留言机等等。
计算机语音识别与合成技术
新技术
ew Technology
N
88