英文语音发音标准化的模式识别对比方法改进分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

英文语音发音标准化的模式识别对比方法改进分析
郑碧君;刘涛
【摘要】Aiming at the problem that the evaluation accuracy of English pronunciation standardization is not high,a pat-tern recognition and contrast method for English pronunciation standardization based on the perceptual standard of pronunciation characteristic cepstral coefficient is proposed in this paper. Speech signal acquisition model of English voice pronunciation is built to pair and describe action attributes of pronunciation organ for the acquired English voice signal first,and then extract the cepstrum characteristics of English speech signal. The sensing method of Mel frequency cepstral coefficients is used to carry out English speech pronunciation feature modeling,and recognize the pattern of pronunciation position and mode,so as to provide a standardized comparison mode for voice pronunciation. The experimental analysis and the test results show that the proposed method is effective and reliable for the acoustic modeling of the pronunciation features,and has the high accuracy for the feature detection and pattern recognition of English speech pronunciation.%针对英文语音发音标准化评价准确性不高的问题,提出一种基于发音特征倒谱系数感知的英文语音发音标准化的模式识别对比方法.首先构建英文语音发音的语音信号采集模型,对采集的英文语音信号进行发音器官的动作属性配对描述.然后提取英文语音发音信号的倒谱特性,采用梅尔频率倒谱系数感知方法进行英文语音发音特征建模和发音位置及方式的模式识别,为语音发音提供标
准化对比模式.最后进行实验分析,测试结果表明,采用该方法进行英文语音发音特征检测和模式识别的准确度较高,对发音特征的声学建模有效可靠.
【期刊名称】《现代电子技术》
【年(卷),期】2017(040)012
【总页数】3页(P28-30)
【关键词】英文发音;语音信号;模式识别;发音标准化评价
【作者】郑碧君;刘涛
【作者单位】武昌首义学院,湖北武汉 430064;华中师范大学,湖北武汉 430079【正文语种】中文
【中图分类】TN911-34;TP391.42
在进行英文发音的学习和训练中,目前主流的方法是采用语音识别系统进行发音的标准化纠正和对比。

通过提取英文发音过程中的发音器官的动作特征和语音信号,对比发音器官的动作属性,对不同的说话人进行差异性特征匹配,分析发音器官随着对不同英文发音类别的变化动作特征,分析送气音、清音、鼻音等各种英文语义发音标准化模式,构建语音发音标准化的模式识别系统。

对语音信号频谱分析,提高英文语音发音的标准性。

研究英文语音发音标准化的模式识别对比方法在改善英文教学和培训质量方面具有重要意义。

对英文语音发音的语音识别分析方法典型的有高阶谱分析方法[1-2]、梅尔频率倒谱分析方法[3]、模糊识别方法和专家系统识别方法[4-6],通过提取语音信号的谱特征,实现模式识别,提高英文语音发音的标准化水平。

1.1 语音发音信号的倒谱特性提取
在上述进行了语音信号同发音器官的动作属性配对处理的基础上,进行英文语音发音标准化模式识别对比优化设计,提出一种基于发音特征倒谱系数感知的英文语音发音标准化的模式识别对比方法。

语音段边界随机段模型建模的特征变换公式变为:式中,是语音因标准化的后验概率得分加权,确定梅尔频率倒谱系数α,获取发音器官动作属性配对的最大似然得分[7]:
式中:0≤τ<m<T;Dm(τ)是发音器官动作属性配对的最大似然得分;p(α)是语
言模型得分;是随机段模型产生的语音信号高频系数分量。

在第j分解尺度下k时刻语音信号的最优切分能量信号输出为。

其中当前帧m的低层小波系数子带为,
求出每个尺度上的语音信号嵌入维数m,寻找部分语音信号的语音段所对应的最
佳起始点,记为:
式中,ϑ,β是能量归一化因子,通过自适应误差补偿控制,进行英文语音发音的
标准化对比,进而提取英文语音发音的倒谱特性:
通过提取语音发音信号的倒谱,通过发音特征训练对发音器官的变化规律进行定量描述,从而进行模式识别对比。

1.2 发音标准化模式识别对比
构建英文语音发音的语音信息集成模式识别模型,采用梅尔频率倒谱系数感知方法进行英文语音发音特征建模和发音位置及方式的模式识别[8-9],语音段属于声学
模型α的权重系数为n(t),候选路径集中语音帧的发音特征函数表达式为:
式中,表示属于候选路径集的声学模型多层感知信息参量,语音段的后验概率模式识别对比模型为:
式中:f(t)为元音种类;s=(c-v)/(c+v)为嘴唇形状属性集合。

在此基础上,需要对语音信号进行阈值去噪,提高模式对比的精度,去噪过程描述如图1所示。

利用小波熵理论确定英文语音发音标准化对比的高频系数分量:
式中:λj为噪声阈值;j是高频小波的层数;N是英文语音发音的长度;σ是阈值
去噪的估计方差,满足:指带噪语音信号的中值。

计算尺度j的总能量,在时间平移为b的各层小波中进行发音标准化模式识别的阈值门限判别,判别式为:
式中:y(a,b)是发音标准化模式识别的主导区间;阈值门限因子为。

对语音发音信号的小波域每层进行阈值化处理,得到发音位置对应的所有帧的频谱特征描述为:式中:为频域输出组合信号;b为输入数据为一段语音的多帧信息增益,得到英文语音发音模式识别对比的模糊判决结果为:
式中,x′(t)和s′(t)分别为:
对于语音段进行预白化滤波,提高判决的标准性,此时对英文语音发音标准化对比的误差可以表达为:
利用主成分分析方法调节英文语音发音的器官感知层的均衡系数,采用基于音素的感知模型进行二元语音模式识别模型构建为:
根据上述模型,对英文语音发音的语音段的特征属性通过语料库的频谱特征序列进行对比,从而纠正英文语音发音的错误发音,并进行发音器官的动作修正,改善发音效果。

实验中以金山词霸的2013版本Shake英文语音发音数据集为标准发音训练样本,选择10位不同性别和不同年龄段的测试对象进行英文语音发音的模式识别和信号分析,采集各个测试对象的英文语音发音作为测试集,得到标准英文语音发音训练集信号和测试集信号如图2所示。

以上述语音信号为研究对象,提取英文语音发音信号的倒谱,采用梅尔频率倒谱系数感知方法进行英文语音发音特征建模和发音位置及方式的模式识别和配对,得到结果如图3所示。

从图3可见,采用本文方法进行英文语音发音信号的倒谱特征提取,能有效反应
语音信号的特征信息量,通过语音信号与发音器官的动作属性配对处理,进行发音动作纠正。

表1给出了不同的模式识别类型进行英文发音标准化识别对比的纠正
结果,分别以替代错误率(Sub)、发音器官错误率(Org)、声源错误率(Source)和统计平均错误率(Err)为评价指标,从表1结果可见,采用本文方法进行英文语音发音的标准化模式识别对比,能有效降低语音发音的错误率,说明利用该方法进行英文语音发音特征检测和模式识别的准确度较高。

本文研究了英文语音发音的标准化模式识别和对比方法构建问题,提出一种基于发音特征倒谱系数感知的英文语音发音标准化的模式识别对比方法。

首先构建英文语音发音的语音信号采集模型,对采集的英文语音信号进行发音器官的动作属性配对描述,提取英文语音发音信号的倒谱特性,采用梅尔频率倒谱系数感知方法进行英文语音发音特征建模和发音位置及方式的模式识别,为语音发音提供标准化对比模式。

实验结果表明,采用本文方法进行英文语音发音特征检测和模式识别的准确度较高,对发音特征的声学建模有效可靠,在指导英文发音学习和矫正中具有重要的实践价值。

刘涛(1971—),男,湖北武汉人,讲师,硕士。

研究方向为计算机应用。

【相关文献】
[1]田莎莎,唐菀,佘纬.改进MFCC参数在非特定人语音识别中的研究[J].科技通报,2013,29(3):139-142.
[2]BOUDIA O R M,SENOUCI S M,FEHAM M.A novel secure aggregation scheme for wireless sensor networks using stateful public key cryptography[J].Ad hoc networks,2015,32(C):98-113.
[3]CHEN S,WANG G,JIA W.Cluster-group based trusted computing for mobile social networks using implicit social behavioral graph[J].Future generation computer systems,2016,55:391-400.
[4]CHANG Y L,LIN T work-based H.264/AVC whole frame loss visibility model and frame dropping methods[J].IEEE transactions on image processing,2012,21(8):
3353-3363.
[5]DU Qinsheng,JIANG Baohua.Design and implementation of the embedded based Web camera system[J].Journal of software,2012,7(11),2560-2566.
[6]闫峰.基于小波变换语音信号去噪及DSP算法实现[D].哈尔滨:哈尔滨工业大学,2008.
[7]李晶皎,安冬,王骄.基于EEMD和ICA的语音去噪算法[J].东北大学学报(自然科学版),2011,32(11):1554-1557.
[8]李优,林煜明,黄德根.模拟语音信号的加噪去噪实验研究[J].仪器仪表学报,2006,27(6):993-994.
[9]张婷,何凌,黄华,等.基于临界频带及能量熵的语音端点检测[J].计算机应用,2013,33(1):175-178.。

相关文档
最新文档