【CN109767755A】一种语音合成方法和系统【专利】

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910153925.2

(22)申请日 2019.03.01

(71)申请人广州多益网络股份有限公司

地址 510000 广东省广州市黄埔区伴河路

90号

申请人广东利为网络科技有限公司　

多益网络有限公司

(72)发明人徐波　

(74)专利代理机构广州三环专利商标代理有限

公司 44202

代理人麦小婵　郝传鑫

(51)Int.Cl.

G10L 13/08(2013.01)

G10L 13/10(2013.01)

(54)发明名称

一种语音合成方法和系统

(57)摘要

本发明公开了一种语音合成方法，包括：将

待处理的多语言文本转化为对应的混合音素集，

并利用one -hot编码映射得到音素混合序列；通

过编码器将所述音素混合序列生成文本特征序

列；通过解码器将所述文本特征序列生成预测声

学频谱特征；将所述预测声学频谱特征合成语音

波形。本发明实施例还公开了一种语音合成系

统。采用本发明实施例，能够合成多种语言的语

音，减少合成语音的误差，

节省资源。权利要求书2页说明书8页附图3页CN 109767755 A 2019.05.17

C N 109767755

权　利　要　求　书1/2页CN 109767755 A

1.一种语音合成方法，其特征在于，包括：

将待处理的多语言文本转化为对应的混合音素集，并利用one-hot编码映射得到音素混合序列；

通过编码器将所述音素混合序列生成文本特征序列；

通过解码器将所述文本特征序列生成预测声学频谱特征；

将所述预测声学频谱特征合成语音波形。

2.如权利要求1所述的语音合成方法，其特征在于，所述编码器由神经网络训练得到；其中，所述神经网络包括卷积神经网络和循环神经网络中的至少一种；则，所述通过编码器将所述音素混合序列生成文本特征序列，具体包括：

利用混合音素集与所述神经网络的神经元构建音素向量表；

根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量；

利用所述神经网络对所述音素向量施加非线性变换，得到文本特征序列。

3.如权利要求1所述的语音合成方法，其特征在于，所述通过解码器将所述文本特征序列生成预测声学频谱特征，具体包括：

在初始阶段，采用特征标记帧输入到预先训练好的循环神经网络中，得到预测声学频谱特征；

在后续每个时间步上，将所述预测声学频谱特征与所述文本特征序列拼接，并输入到所述循环神经网络中，循环迭代得到所述预测声学频谱特征。

4.如权利要求1所述的语音合成方法，其特征在于，所述将所述预测声学频谱特征合成语音波形，具体包括：

利用Griffin-Lim算法将所述预测声学频谱特征进行迭代更新，合成语音波形。

5.如权利要求1所述的语音合成方法，其特征在于，所述将待处理的多语言文本转化为对应的混合音素集，并利用one-hot编码映射得到音素混合序列，具体包括：预先获取多语言的音频数据及对应的多语言文本；

调用音频处理包利用傅里叶变换将时域状态的所述音频数据转化为对应的真实声学频谱特征；其中，所述音频处理包包括但不限于python中的librosa和pydub；

将所述多语言文本转化为对应的混合音素集，并利用one-hot编码映射得到音素混合序列。

6.如权利要求5所述的语音合成方法，其特征在于，所述解码器的训练方法包括：

在初始阶段，采用特征标记帧输入到预设参数的循环神经网络中，得到预测声学频谱特征；

在后续每个时间步上，将所述预测声学频谱特征与所述文本特征序列拼接，并输入到预设参数的循环神经网络中，循环迭代得到所述预测声学频谱特征；

利用损失评价函数对所述真实声学频谱特征与所述预测声学频谱特征之间的误差进行评价，将误差进行反向传播；

更新预设参数，最小化所述预测声学频谱特征与所述真实声学频谱特征的误差。

7.如权利要求1所述的语音合成方法，其特征在于，所述将所述预测声学频谱特征合成语音波形后，还包括：