【CN110060691A】基于i向量和VARSGAN的多对多语音转换方法【专利】
人工智能辅助语音识别的关键技术

人工智能辅助语音识别的关键技术人工智能(Artificial Intelligence,简称AI)的快速发展已经渗透到我们生活的各个方面。
语音识别作为人机交互的重要手段之一,受到了广泛的关注和应用。
人工智能技术的不断进步,为语音识别带来了革命性的突破。
本文将探讨人工智能辅助语音识别的关键技术以及其在现实生活中的应用。
一、声学模型声学模型是语音识别中的重要组成部分,用于将声音信号转换为文字。
传统的声学模型基于高斯混合模型(Gaussian Mixture Model,简称GMM),但其对于复杂声音的处理效果有限。
近年来,随着深度学习(Deep Learning)技术的发展,逐渐出现了基于深度神经网络(Deep Neural Network,简称DNN)的声学模型,如深度神经网络隐马尔可夫模型(Deep Neural Network Hidden Markov Model,简称DNN-HMM)。
DNN-HMM模型利用深度神经网络对声音信号进行特征提取和建模,大大提高了声学模型的性能和准确度。
通过多层次的神经网络结构,DNN-HMM模型能够学习到更复杂的语音特征表征,从而提高语音识别的效果。
此外,还有基于循环神经网络(Recurrent Neural Network,简称RNN)的声学模型,如长短时记忆网络(Long Short-Term Memory,简称LSTM),能够更好地处理时序信息,提高语音识别的鲁棒性。
二、语言模型语言模型是语音识别中另一个重要的组成部分,用于对识别结果进行语言上下文的判断和调整。
传统的语言模型主要基于统计的方法,如n-gram模型。
但这种方法需要对大量的语料库进行统计分析,且容易受到语料库大小和稀疏性的限制。
随着深度学习的发展,基于神经网络的语言模型逐渐兴起。
其中,循环神经网络(RNN)在语言模型中的应用得到了广泛的关注。
RNN 能够通过学习上下文之间的依赖关系,更好地捕捉到长距离的语言依赖关系,从而提高语音识别的准确度和流畅度。
语音识别中基于i-vector的说话人归一化研究

说话人识别 ; i - v e c t 0 r ; 最大似然线性变换 ; 特征提取 ; 说话人归一化 ; L B G算法
基金项 目: 国家 自然 科 学 基 金 资 助 项 目( No . 6 1 3 6 5 0 0 5、 No . 6 0 9 6 5 0 0 2 )
0 引 言
般 常 用 的特 征 归 一 化 方 法 _ l _ 主 要 有 倒 谱 均 值 归
一
化( C e p s t r a 1 Me a n N 0 t i n a l i z a t i 0 n 。 C MN) } ¨ 和 倒 谱 方 差
归一 化 ( C e p s t r a l Va r i a n c e N o r ma l i z a t i o n, C VN) 回. 两 者
谱 域 中消 除 了包 含 大部 分 信 道失 真 的直 流 分 量 . 而
C V N通 过 对 方 差 的进 一 步 归 一 化 .使 得 带 噪 语 音 信 号 和 纯 净 语 音 信 号 的 概 率 密 度 函数 的差 异 减 小 我 们 将
道空间被定义为特征 信道矩阵 U 然后提 出基 于单一
摘要 :
i - v e c t o r 是反映说话人声学差异的一种重要特征 , 在 目前 的说 话 人识 别 和说 话 人 验 证 中显 示 了有 效 性 。将 i - v e c t o r 应 用 于 语 音 识 别 中 的说 话 人 的声 学 特 征 归 一 化 , 对训练数据提 取 i - v e c t o r 并利用 L B G算法进行无监 督聚类 , 然 后 对 各 类 分 别 训 练 最 大 似 然线 性 变 换 并 使 用 说 话 人 自适 应 训 练 来 实 现 说 话 人 的 归 一 化 。将 变 换 后 的特 征 用 于 训 练 和 识 别 。 实 验 表 明 该 方 法 能 够 提 高语 音 识 别 的性 能 。
语音识别AI技术中的语音识别模型与语音转写

语音识别AI技术中的语音识别模型与语音转写随着人工智能技术的不断发展,语音识别AI技术在各行各业的应用越来越广泛。
语音识别模型和语音转写是语音识别AI技术中的两个重要环节。
本文将分别对语音识别模型和语音转写进行介绍,并探讨其在实际应用中的意义。
一、语音识别模型语音识别模型是语音识别AI技术的核心部分,主要用于将人的语音信号转换为文字信息。
现阶段常用的语音识别模型包括隐马尔可夫模型(HMM)和深度学习模型。
1. 隐马尔可夫模型(HMM)隐马尔可夫模型是早期语音识别模型的代表。
它基于统计模型,通过建立声学模型和语言模型来实现语音信号的识别。
声学模型用于将语音信号与不同的语音单位进行匹配,语言模型则根据语音信号的上下文进行语义解析。
虽然HMM模型在一定程度上具有一定的准确性,但受限于统计模型的缺陷,其对于复杂的语音信号处理能力有限。
2. 深度学习模型近年来,随着深度学习技术的快速发展,深度学习模型成为了目前语音识别模型的主流。
深度学习模型采用神经网络结构,通过多层次的特征提取和模型训练,实现对语音信号的高效准确识别。
其中,卷积神经网络(CNN)和循环神经网络(RNN)是最常见的深度学习模型结构。
CNN主要用于声学特征的提取,而RNN则用于处理声学序列中的时间依赖关系。
此外,长短时记忆网络(LSTM)和变压器网络(Transformer)等模型也在语音识别中得到了广泛应用。
二、语音转写语音转写是将语音信号转换为文字信息的过程。
它是语音识别AI 技术的一个重要应用领域,具有广泛的实际应用价值。
语音转写的实现过程如下:首先,通过采样和预处理等方法获取原始语音信号;然后,利用语音识别模型对语音信号进行识别,得到相应的文本结果;最后,对文本结果进行后处理,提高文本的准确性和可读性。
语音转写的应用场景十分广泛。
例如,在语音助手、智能客服和自动驾驶等领域,语音转写技术可以实现对人的语音指令的准确理解和执行;在语音翻译和实时字幕生成等领域,语音转写技术可以将不同语种的语音实时转换为对应的文字信息,方便人们的交流和理解。
支持向量机算法在语音识别中的应用案例分析

支持向量机算法在语音识别中的应用案例分析随着人工智能技术的不断发展,语音识别作为其中的重要应用之一,正逐渐渗透到我们的生活中。
而在语音识别中,支持向量机(Support Vector Machine,简称SVM)算法因其在分类问题上的出色表现,成为了研究者们广泛使用的工具之一。
本文将通过一个实际的案例,探讨SVM算法在语音识别中的应用。
在语音识别中,一个常见的问题是将不同的声音进行分类。
例如,我们希望将说话者的声音分为男性和女性两类。
为了解决这个问题,我们可以采用SVM算法进行分类。
首先,我们需要收集一定数量的样本数据。
在这个案例中,我们收集了来自不同说话者的大量语音样本。
每个样本都被转换成数字化的声音信号,然后提取出一系列特征。
这些特征可以包括声音的频率、能量、音调等等。
接下来,我们将这些特征作为输入,将样本分为男性和女性两类。
这里,我们可以将男性定义为正类,女性定义为负类。
SVM算法的目标是找到一个最优的超平面,将这两类样本分开,并且使得两类样本与超平面的距离最大化。
在实际操作中,我们可以使用一些开源的机器学习库,如scikit-learn,来实现SVM算法。
通过调用库中的函数,我们可以将样本数据输入模型,并进行训练。
训练完成后,我们可以得到一个分类器模型,可以用于对新的语音样本进行分类。
在这个案例中,我们使用了1000个样本进行训练,其中500个为男性声音,500个为女性声音。
经过训练,我们得到了一个准确率达到90%的分类器模型。
这意味着,当我们输入一个新的语音样本时,有90%的概率我们可以正确地将其分类为男性或女性。
然而,尽管SVM算法在这个案例中表现出色,但它并不是解决语音识别问题的唯一方法。
实际上,语音识别是一个复杂的问题,涉及到许多其他的算法和技术。
例如,我们可以使用深度学习算法,如循环神经网络(Recurrent Neural Network,简称RNN),来处理语音信号。
总结起来,SVM算法在语音识别中的应用案例中展现出了其强大的分类能力。
非平行文本条件下基于VAE与i-vector的多对多语音转换系统[发明专利]
![非平行文本条件下基于VAE与i-vector的多对多语音转换系统[发明专利]](https://img.taocdn.com/s3/m/d540c615c8d376eeafaa3158.png)
专利名称:非平行文本条件下基于VAE与i-vector的多对多语音转换系统
专利类型:发明专利
发明人:李燕萍,许吉良,张燕
申请号:CN201811597896.0
申请日:20181226
公开号:CN109584893A
公开日:
20190405
专利内容由知识产权出版社提供
摘要:本发明提供一种非平行文本条件下基于VAE与身份特征向量(i‑vector)的多对多语音转换系统,在非平行语料条件下,基于变分自编码模型(Variational Autoencoding,VAE)实现语音转换,其中说话人的表征加入了说话人身份特征i‑vector,能够有效地提升转换后语音的个性相似度。
本发明的优点包括三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)i‑vector特征的引入能够丰富说话人身份信息,从而有效提高转换语音的个性相似度,改善转换性能。
申请人:南京邮电大学
地址:210003 江苏省南京市鼓楼区新模范马路66号
国籍:CN
代理机构:南京苏科专利代理有限责任公司
代理人:姚姣阳
更多信息请下载全文后查看。
基于深度学习算法的语音转换技术研究

基于深度学习算法的语音转换技术研究随着科技的不断发展,人工智能技术越来越被广泛应用于各行各业。
其中,深度学习技术作为一种强大的机器学习工具,为语音转换技术的研究提供了新的思路和方法。
本文将探讨基于深度学习算法的语音转换技术研究的相关内容。
一、语音转换技术的概述语音转换技术又被称为语音变换技术,指将一段语音转化成具有特定声音特征的另一段语音的过程。
语音转换技术的应用非常广泛,例如语音合成、语音识别、语音转录等。
在人工智能领域,语音转换技术可以用于虚拟助手、智能客服等各种场景。
传统的语音转换技术通常采用基于规则的方法,例如通过声学模型来进行转换。
但是这种方法需要事先进行大量的人工规则设计和数据标注,很难进行可扩展性和自适应性的处理。
因此,现在越来越多的研究者开始采用基于深度学习的方法来进行语音转换技术的研究。
二、基于深度学习算法的语音转换技术研究深度学习技术作为一种利用多层神经网络进行特征学习和模式识别的技术,被广泛应用于语音转换技术的研究中。
具体来说,基于深度学习算法的语音转换技术主要包括两个部分:特征映射和声音生成。
1、特征映射特征映射是将原始语音信号转换成特征向量的过程。
在语音转换技术中,常用的特征包括语音的频率、音高、语速、说话人口音等。
传统的方法通常使用手工设计特征来进行特征提取,但这个过程需要大量的专业知识和多年的实践经验。
而基于深度学习算法的方法可以自动地学习到语音的特征,从而避免了手工设计的繁琐和复杂过程。
在深度学习技术中,常用的特征提取方法包括梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,简称MFCC)、线性频率倒谱系数(Linear-Frequency Cepstral Coefficients,简称LFCC)等。
其中,MFCC是最常用的语音特征提取方法,通过对语音信号进行银行滤波器和离散余弦变换,得到一个13维的MFCC特征向量。
2、声音生成声音生成是生成目标语音的过程,它通过特征映射的结果来计算目标语音的声音参数。
基于i_向量和变分自编码相对生成对抗网络的语音转换

基于i 向量和变分自编码相对生成对抗网络的语音转换李燕萍 1曹 盼 1左宇涛 1张 燕 2钱 博3摘 要 提出一种基于i 向量和变分自编码相对生成对抗网络的语音转换方法, 实现了非平行文本条件下高质量的多对多语音转换. 性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性特征是否准确. 首先为了改善合成语音自然度, 利用生成性能更好的相对生成对抗网络代替基于变分自编码生成对抗网络模型中的Wasserstein 生成对抗网络, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 克服了Wasser-stein 生成对抗网络性能不稳定和收敛速度较慢等问题. 进一步为了提升转换语音的说话人个性相似度, 在解码阶段, 引入含有丰富个性信息的i 向量, 以充分学习说话人的个性化特征. 客观和主观实验表明, 转换后的语音平均梅尔倒谱失真距离值较基准模型降低4.80%, 平均意见得分值提升5.12%, ABX 值提升8.60%, 验证了该方法在语音自然度和个性相似度两个方面均有显著的提高, 实现了高质量的语音转换.关键词 语音转换, 相对生成对抗网络, i 向量, 非平行文本, 变分自编码器, 多对多引用格式 李燕萍, 曹盼, 左宇涛, 张燕, 钱博. 基于i 向量和变分自编码相对生成对抗网络的语音转换. 自动化学报, 2022,48(7): 1824−1833DOI 10.16383/j.aas.c190733Voice Conversion Based on i-vector With Variational Autoencoding RelativisticStandard Generative Adversarial NetworkLI Yan-Ping 1 CAO Pan 1 ZUO Yu-Tao 1 ZHANG Yan 2 QIAN Bo 3Abstract This paper proposes a novel voice conversion method based on i-vector and variational autoencoding re-lativistic standard generative adversarial network, which can realize high-quality many-to-many voice conversion for non-parallel corpora. A high performance voice conversion method should not only ensure speech naturalness, but also take into account speaker similarity of converted speech. Firstly, in order to improve the speech naturalness,the Wasserstein generative adversarial network in the voice conversion model based on variational autoencoding generative adversarial network is replaced by the relativistic standard generative adversarial network, which makes the output of the discriminator depend on the relativistic standard value between real and generated samples by constructing a relativistic standard discriminator, overcoming the unstable performance and slow convergence rate.Furthermore, i-vector representing speaker characteristics is adopted as speaker representation for many-to-many voice conversion in addition to traditional one-hot vector, thus significantly improving speaker similarity of conver-ted speech. Sufficient objective and subjective experiments show that the average value of mel-cepstral distortion is decreased by 4.80%, the mean opinion score is increased by 5.12%, and ABX is increased by 8.60% compared with baseline variational autoencoding wasserstein generative adversarial network method which demonstrate that the proposed method has a great improvement on both speech naturalness and speaker similarity.Key words Voice conversion, relativistic standard generative adversarial network, i-vector, non-parallel corpora,variational autoencoder, many-to-manyCitation Li Yan-Ping, Cao Pan, Zuo Yu-Tao, Zhang Yan, Qian Bo. Voice conversion based on i-vector with vari-ational autoencoding relativistic standard generative adversarial network. Acta Automatica Sinica , 2022, 48(7):1824−1833语音转换是在保持语音内容不变的同时, 改变一个人的声音, 使之听起来像另一个人的声音[1−2].根据训练过程对语料的要求, 分为平行文本条件下收稿日期 2019-10-23 录用日期 2020-07-27Manuscript received October 23, 2019; accepted July 27, 2020国家自然科学青年基金(61401227), 国家自然科学基金(61872199,61872424), 金陵科技学院智能人机交互科技创新团队建设专项(218/010*********)资助Supported by National Natural Science Foundation of Youth Foundation of China (61401227), National Natural Science Foundation of China (61872199, 61872424), and Special Project of Intelligent Human-Computer Interaction Technology Innova-tion Team Building of Jinling Institute of Technology (218/010*********)本文责任编委 贾磊Recommended by Associate Editor JIA Lei1. 南京邮电大学通信与信息工程学院 南京 2100032. 金陵科技学院 南京 2111693. 南京电子技术研究所 南京 2100391. School of Communication and Information Engineering,Nanjing University of Posts and Telecommunications, Nanjing 2100032. Jinling Institute of Technology, Nanjing 2111693. Nanjing Institute of Electronic Technology, Nanjing 210039第 48 卷 第 7 期自 动 化 学 报Vol. 48, No. 72022 年 7 月ACTA AUTOMATICA SINICAJuly, 2022的语音转换和非平行文本条件下的语音转换. 在实际应用中, 预先采集大量平行训练文本不仅耗时耗力, 而且在跨语种转换和医疗辅助系统中往往无法采集到平行文本, 因此非平行文本条件下的语音转换研究具有更大的应用背景和现实意义.性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性信息是否准确. 近年来, 为了改善转换后合成语音的自然度和说话人个性相似度, 非平行文本条件下的语音转换研究取得了很大进展, 根据其研究思路的不同,大致可以分为3类, 第1类思想是从语音重组的角度, 在一定条件下将非平行文本转化为平行文本进行处理[3−4], 其代表算法包括两种, 一种是使用独立于说话人的自动语音识别系统标记音素, 另一种是借助文语转换系统将小型语音单元拼接成平行语音. 该类方法原理简单, 易于实现, 然而这些方法很大程度上依赖于自动语音识别或文语转换系统的性能; 第2类是从统计学角度, 利用背景说话人的信息作为先验知识, 应用模型自适应技术, 对已有的平行转换模型进行更新, 包括说话人自适应[5−6]和说话人归一化等. 但这类方法通常要求背景说话人的训练数据是平行文本, 因此并不能完全解除对平行训练数据的依赖, 还增加了系统的复杂性; 前两类通常只能为每个源−目标说话人对构建一个映射函数, 即一对一转换, 当存在多个说话人对时, 就需要构建多个映射函数, 增加系统的复杂性和运算量;第3类是解卷语义和说话人个性信息的思想, 转换过程可以理解为源说话人语义信息和目标说话人个性信息的重构, 其代表算法包括基于条件变分自编码器 (Conditional variational auto-Encoder, C-VAE)[7]方法、基于变分自编码生成对抗网络(Vari-ational autoencoding wasserstein generative ad-versarial network, VAWGAN)[8]方法和基于星型生成对抗网络 (Star generative adversarial net-work, StarGAN)[9]方法. 这类方法直接规避了非平行文本对齐的问题, 实现将多个源−目标说话人对的转换整合在一个转换模型中, 提供了多说话人向多说话人转换的新框架, 即多对多转换, 成为目前非平行文本条件下语音转换的主流方法.基于C-VAE模型的语音转换方法, 其中的编码器对语音实现语义和个性信息的解卷, 解码器通过语义和说话人身份标签完成语音的重构, 从而解除对平行文本的依赖, 实现多说话人对多说话人的转换. 但是由于C-VAE基于理想假设, 认为观察到的数据通常遵循高斯分布, 导致解码器的输出语音过度平滑, 转换后的语音质量不高. 基于循环一致生成对抗网络的语音转换方法[10]可以在一定程度上解决过平滑问题, 但是该方法只能实现一对一的语音转换.Hsu等[8]提出的VAWGAN模型通过在C-VAE中引入Wasserstein生成对抗网络(Wasser-stein generative adversarial network, WGAN)[11],将 VAE的解码器指定为WGAN的生成器来优化目标函数, 一定程度上提升转换语音的质量, 然而Wasserstein生成对抗网络仍存在一些不足之处,例如性能不稳定, 收敛速度较慢等. 同时, VAWGAN 使用说话人身份标签one-hot向量建立语音转换系统, 而该指示标签无法携带更为丰富的说话人个性信息, 因此转换后的语音在个性相似度上仍有待提升.针对上述问题, 本文从以下方面提出改进意见: 1)通过改善生成对抗网络[12]的性能, 进一步提升语音转换模型生成语音的清晰度和自然度; 2)通过引入含有丰富说话人个性信息的表征向量, 提高转换语音的个性相似度. 2019年, Baby等[13]通过实验证明, 相比于WGAN, 相对生成对抗网络(Relativ-istic standard generative adversarial networks, RSGAN)生成的数据样本更稳定且质量更高. 此外, 在说话人确认[14−16]和说话人识别[17]领域的相关实验证明, i向量(Identity-vector, i-vector)可以充分表征说话人个性信息. 鉴于此, 本文提出基于i向量和变分自编码相对生成对抗网络的语音转换模型(Variational autoencoding RSGAN and i-vec-tor, VARSGAN + i-vector), 该方法将RSGAN应用在语音转换领域, 利用生成性能更好的相对生成对抗网络替换VAWGAN模型中的Wasserstein生成对抗网络, 同时在解码网络引入含有丰富说话人个性信息的i向量辅助语音的重构. 充分的客观和主观实验表明, 本文方法在有效改善合成语音自然度的同时进一步提升了说话人个性相似度, 实现了非平行文本条件下高质量的多对多语音转换.1 基于VAWGAN的语音转换基准方法基于VAWGAN语音转换模型利用WGAN[11]提升了C-VAE的性能, 其中C-VAE的解码器部分由WGAN中的生成器代替. VAWGAN模型由编码器、生成器和鉴别器3部分构成. 完整的语音转换模型可表示为:7 期李燕萍等: 基于i向量和变分自编码相对生成对抗网络的语音转换1825f ϕ(·)x z f θ(·)y z (z,y )(z,y )x ˆxy y 式中, 表示编码过程, 通过编码过程将输入语音 转换为独立于说话人的隐变量 , 认为是与说话人个性特征无关的语义信息. 表示解码过程, 将说话人标签 拼接至隐变量 上构成联合特征 , 在解码过程中利用联合特征 重构出特定说话人相关的语音, 然后将真实语音 和生成语音 送入鉴别器判别真假. 同时, 利用表征说话人身份的one-hot 标签 , VAWGAN 模型可以根据 的数值对其表示的特定说话人进行语音转换, 从而实现多说话人对多说话人的语音转换.为实现语音转换, WGAN 通过Wassertein 目标函数[8]来代替生成对抗网络中的JS(Jensen-Shannon)散度来衡量生成数据分布和真实数据分布之间的距离, 在一定程度上改善了传统生成对抗网络[18]训练不稳定的问题.z y 综上分析可知, VAWGAN 利用潜在语义内容 和说话人标签 重构任意目标说话人的语音, 实现了非平行文本条件下多对多的语音转换. 该基准模型中WGAN 采用权重剪切操作来强化Lipschitz 连续性限制条件, 但仍存在训练不易收敛, 性能不稳定等问题, 在数据生成能力上仍存在一定的改进空间. 此外, VAWGAN 利用one-hot 标签表征说话人身份, 而one-hot 标签只是用于指示不同说话人, 无法携带更为丰富的说话人个性信息. 通过提升WGAN 的性能或找到生成性能更加强大的生成对抗网络, 有望获得更好自然度的语音, 进一步引入含有丰富说话人个性信息的表征向量能够有助于提升说话人个性相似度.2 改进的基于VARSGAN + i-vector的语音转换方法2.1 RSGAN 的原理为进一步提升VAWGAN 的性能, 通过找到一个生成性能更加强大的GAN 替换WGAN 是本文的一个研究出发点. 2019年Baby 等[13]通过实验证明相比于最小二乘GAN [19]和WGAN [11], RSGAN 生成的数据样本更稳定且质量更高. RSGAN 由标准生成对抗网络发展而来, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 在训练生成器时真实样本也能参与训练. 为了将鉴别器的输出限制在[0, 1]中, 标准生成对抗网络常常在鉴别器的最后一层使用sigmoid 激活函数, 因此标准生成对抗网络鉴别器定义为:C (x )式中, 为未经过sigmoid 函数激励的鉴别器输出. 由于鉴别器的输出由真实样本和生成样本共同决定, 因此可以使用下述的方法构造相对鉴别器:x r x r ∈P x f x f ∈Q D (˜x )D rev (˜x )式中, 表示真实样本, , 表示生成样本,, 表示真实样本比生成样本更真实的概率, 表示生成样本比真实样本更真实的概率. 经过如下推导:可得进而可得RSGAN 的鉴别器和生成器的目标函数:式中, sigmoid 表示鉴别器最后一层使用sigmoid 激活函数.综上分析可知, 相比于WGAN, RSGAN 生成的数据样本更稳定且质量更高, 若将RSGAN 应用到语音转换中, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 在训练生成器时真实样本也能参与训练, 从而改善鉴别器中可能存在的偏置情况, 使得训练更加稳定, 性能得到提升, 并且把真实样本引入到生成器的训练中, 可以加快GAN 的收敛速度. 鉴于此,本文提出利用RSGAN 替换WGAN, 构建基于变分自编码相对生成对抗网络(Variational autoen-coding RSGAN, VARSGAN)的语音转换模型, 并引入可以充分表征说话人个性信息的i 向量特征,以期望在改善合成语音自然度的同时, 进一步提升转换语音的个性相似度.2.2 i 向量的原理和提取通过引入含有丰富说话人个性信息的表征向量, 从而提升转换语音的个性相似度是本文在上述研究基础上进一步的探索. Dehak 等[14]提出的说话人身份i 向量, 可以充分表征说话人的个性信息. i 向量是在高斯混合模型−通用背景模型(Gaussian1826自 动 化 学 报48 卷mixture model-universal background model,GMM-UBM)[15]超向量和信道分析的基础上提出的一种低维定长特征向量. 对于p 维的输入语音,GMM-UBM 模型采用最大后验概率算法对高斯混合模型中的均值向量参数进行自适应可以得到GMM 超向量. 其中, GMM-UBM 模型可以表征背景说话人整个声学空间的内部结构, 所有说话人的高斯混合模型具有相同的协方差矩阵和权重参数.由于说话人的语音中包含了个性差异信息和信道差异信息, 因此全局GMM 的超向量可以定义为:S m T ω=(ω1,ω2,···,ωq )N (0,I )式中, 表示说话人的超向量, 表示与特定说话人和信道无关的均值超向量, 即通用背景模型下的超向量, 是低维的全局差异空间矩阵, 表示背景数据的说话人空间, 包含了说话人信息和信道信息在空间上的统计分布, 也称为全局差异子空间. 是包含整段语音中的说话人信息和信道信息的全局变化因子, 服从标准正态分布 ,称之为i 向量, 即身份特征i 向量.m S T S m T 首先, 将经过预处理的训练语料进行特征提取得到梅尔频率倒谱系数, 将梅尔频率倒谱参数输入高斯混合模型进行训练, 通过期望最大化算法得到基于高斯混合模型的通用背景模型, 根据通用背景模型得到均值超向量 , 通过最大后验概率均值自适应得到说话人的超向量 . 同时, 根据训练所得的通用背景模型提取其鲍姆−韦尔奇统计量, 通过期望最大化算法估计获得全局差异空间矩阵 . 最终, 通过上述求得的高斯混合模型的超向量 、通用背景模型的均值超向量 、全局差异空间矩阵 可以得到i 向量. 由于上述得到的i 向量同时含有说话人信息和信道信息, 本文采用线性判别分析和类协方差归一化对i 向量进行信道补偿, 最终生成鲁棒的低维i 向量.2.3 基于VARSGAN + i-vector 的语音转换方法基于以上分析, 本文提出VARSGAN + i-vec-tor 的语音转换模型, 在解码阶段融入表征说话人个性信息的i 向量, 将one-hot 标签和i 向量拼接至语义特征上构成联合特征重构出指定说话人相关的语音. 其中, i 向量含有丰富的说话人个性信息, 能够与传统编码中的one-hot 标签相互补充, 互为辅助, 前者为语音的合成提供丰富的说话人信息, 后者作为精准的标签能够准确区分不同说话人, 相辅相成有效提升转换后语音的个性相似度, 进一步实现高质量的语音转换. 基于VARSGAN + i-vec-tor 模型的整体流程如图1所示, 分为训练阶段和转换阶段.2.3.1 训练阶段i x y i 获取训练语料, 训练语料由多名说话人的语料组成, 包含源说话人和目标说话人; 将所述的训练语料通过WORLD [20]语音分析模型, 提取出各说话人语句的频谱包络、基频和非周期性特征; 利用第2.2节的i 向量提取方法获得表征各个说话人个性信息的i 向量 ; 将频谱包络特征 、说话人标签 、i 向量 一同输入VARSGAN + i-vector 模型进行训练, VARSGAN + i-vector 模型是由C-VAE 和RSGAN 结合而成, 将变分自编码器的解码器指定为RSGAN 的生成器来优化目标函数. 原理如图2所示.该模型完整的目标损失函数为:L (x ;ϕ,θ)式中, 为C-VAE 部分的目标函数:D KL q ϕ(z |x )x z p θ(x |z,y,i )x p θ(z )z max {L (x ;ϕ,θ)}式中, 表示KL(Kullback-Leibler)散度, 表示编码网络, 该网络将频谱特征 编码成潜在变量 . 表示解码网络, 将联合特征向量尽可能重构 就可以使式(11)的期望尽可能大. 为潜在变量 的先验分布, 该分布为标准多维高斯分布. 使用随机梯度下降法来更新C-VAE 中的网络模型参数, 其目标是 .αJ RSGANL G 式(10)中, 是调节RSGAN 损失的系数, 表示RSGAN 部分的目标函数, 由生成器和鉴别器的损失函数构成, 其中RSGAN 的生成器中结合了表征各说话人个性信息的i 向量i . 由式(7)和式(8)可知, 生成器网络的损失函数用 来表示:G θD ψθψG θ(z,y,i )D ψ(G θ(z,y,i )式中, 表示生成器, 表示鉴别器, 和 分别是生成器和鉴别器的相关参数, 表示重构的频谱特征, )表示鉴别器对重构的频谱特征判别真假.L D 鉴别器网络的损失函数用 表示:添加梯度惩罚项后, 鉴别器的损失函数更新为:7 期李燕萍等: 基于i 向量和变分自编码相对生成对抗网络的语音转换1827−E (x,z )∼(p data ,q ϕ(z |x ))[ln (sigmoid (D ψ(x )−ψ(G θ(z,y,i ))))]+E ˆx ∼P ˆx [∥∇ˆx D (ˆx )∥2−1]2(14)E ˆx ∼P ˆx [∥∇ˆx D (ˆx )∥2−1]2λmin {L G }min {L D }式中, 为梯度惩罚项, 能够加快收敛速度, 使得训练过程更为稳定[13, 21], 表示梯度惩罚参数. 训练过程中, 生成器网络的优化目标是 , 鉴别器网络的优化目标是 ,直至设置的迭代次数, 得到训练好的VARSGAN +i-vector 网络.ln f 0ln f 0′构建从源说话人语音对数基频 到目标说话人对数基频 的转换函数:ln f 0′=µ′+σ′σ(ln f 0−µ)(15)µσ式中, 和 分别表示源说话人的基频在对数域的µ′σ′均值和标准差, 和 分别表示目标说话人的基频在对数域的均值和标准差.2.3.2 转换阶段x x y i ˆx ln f 0ln f 0′ˆx ln f 0′将待转换语料中源说话人的语音通过WORLD [20]语音分析模型提取出不同语句的频谱包络特征 、基频和非周期性特征; 将频谱包络特征 、说话人标签 、i 向量 输入训练好的VARSGAN + i-vec-tor 模型, 从而重构出目标说话人频谱包络特征 ;通过式(15) 表示的基频转换函数, 将源说话人对数基频 转换为目标说话人的对数基频 ; 非周期性特征保持不变. 将重构的目标说话人频谱包络特征 、目标说话人的对数基频 和源说话人的非周期性特征通过WORLD 语音合成模型, 合成得到转换后的说话人语音.3 实验与分析本实验采用VCC2018[22]语料库, 该语料库是由国际行业内挑战赛提供的标准数据库, 为评估不同科研团队的语音转换系统的性能提供一个通用标准. 链接为/vcc2018/index.html , 其中的非平行文本语料库包括4名源说话人(包括2名男性和2名女性), 分别是VCC2SF3、VCC2SF4、VCC2SM3和VCC2SM4;4名目标说话人(包括2名男性和2名女性), 分别是VCC2TF1、VCC2TF2、VCC2TM1和VCC2-训练阶段训练语料转换阶段待转换语音WORLD 分析/合成WORLD 分析/合成WORLD 分析/合成非周期性特征非周期性特征频谱包络特征频谱包络特征基频基频VARSGAN +i-vector 模型训练训练好的VARSGAN +i-vector 模型说话人标签 y 目标说话人标签 y说话人个性表示 i 目标说话人个性表示 i均值、方差基频转换函数转换基频合成语音图 1 基于VARSGAN + i-vector 模型的整体流程图Fig. 1 Framework of voice conversion based on VARSGAN + i-vector network编码器生成器鉴别器z yix^图 2 VARSGAN+i-vector 模型原理示意图Fig. 2 Schematic diagram of VARSGAN+i-vectornetwork1828自 动 化 学 报48 卷TM2. 每个说话人在训练时均选取81句训练语音,在转换时选取35句测试语音进行转换, 一共有16种转换情形. 将上述8个说话人的训练语料输入Kaldi 语音识别工具中预训练好的模型来提取i 向量特征, 分别得到表征上述8个人个性信息的各自100维的i 向量.实验系统在P y t h o n 平台环境下实现. 在Intel(R) Xeon(R) CPU *****************,NVIDIA Tesla V100 (reva1)的Linux 服务器上运行, 对语料库中的8个说话人的语音基于5种模型进行客观和主观评测, 将VAWGAN [8]作为本文的基准模型与本文提出的改进模型VARSGAN 、VAWGAN + i-vector 和VARSGAN + i-vec-tor 进行纵向对比, 并进一步与StarGAN 模型[9]进行横向对比, 这5种模型都是实现非平行文本条件下的多对多转换.本文使用WORLD 分析/合成模型提取语音参数, 包括频谱包络特征、非周期性特征和基频, 由于FFT 长度设置为1 024, 因此得到的频谱包络和非周期性特征均为1 024 /2 + 1 = 513维. 使用VARSGAN + i-vector 模型转换频谱包络特征, 使用传统的高斯归一化的转换方法转换对数基频, 非周期性特征保持不变. 在VARSGAN + i-vector 模型中, 所述编码器、生成器、鉴别器均采用二维卷积神经网络, 激活函数采用LReLU 函数[23]. 图3为VARSGAN + i-vector 模型网络结构图, 其中编码器由5个卷积层构成, 生成器由4个反卷积层构成,鉴别器由3个卷积层和1个全连接层构成.图3中, h 、w 、c 分别表示高度、宽度和通道数,k 、c 、s 分别表示卷积层的内核大小、输出通道数和z αλ步长, Input 表示输入, Output 表示输出, Real /Fake 表示鉴别器判定为真或假, Conv 表示卷积,Deconv 表示反卷积 (转置卷积), Fully Connec-ted 表示全连接层, Batch Norm 表示批归一化. 实验中隐变量 的维度, 在借鉴基于变分自编码器模型的相关文献基础上结合实验调参, 设置为128. 实验中RSGAN 的损失系数 设置为50, 梯度惩罚参数 设置为10, 训练批次大小设置为16, 训练周期为200, 学习率为0.000 1, 最大迭代次数为200 000.本文模型VARSGAN + i-vector 训练约120 000轮损失函数收敛, 能达到稳定的训练效果, 而基准模型耗时相对较长, 并且得到的转换性能不够稳定.3.1 客观评价本文选用梅尔倒谱失真距离(Mel-cepstral dis-tortion, MCD)作为客观评价标准, 通过MCD 值来衡量转换后的语音与目标语音的频谱距离[1−2],MCD 计算公式如下:c d ˆc d d D 式中, 和 分别是目标说话人语音和转换后语音的第 维梅尔倒谱系数, 是梅尔倒谱系数的维数.计算MCD 值时对16组转换情形分别选取35句转换语音进行统计. 图4为16种转换情形下5种模型的转换语音的MCD 值对比.由图4可知, 16种转换情形下VAWGAN 、VARSGAN 、VAWGAN + i-vector 、VARSGAN + i-vector 和StarGAN 模型的转换语音的平均MCD 值分别为5.690、5.442、5.507、5.417和5.583.编码器h 513k 7 × 1s 3 × 1w 1c 1h 513w 1c 1h 513w 1c 1c 16k 7 × 1s 3 × 1c 16k 7 × 1s 3 × 1c 32k 7 × 1s 3 × 1c 32k 9 × 1s 3 × 1c 32k 7 × 1s 3 × 1c 16k 7 × 1s 3 × 1c 8k 1 025 × 1s 1 × 1c 1k 7 × 1s 3 × 1c 64k 115 × 1s 3 × 1c 64k 7 × 1s 3 × 1c 128k 7 × 1s 3 × 1c 256I n p u tI n p u tC o n vD e c o n v D e c o n vO u t p u tB a t c h n o r m B a t c h n o r m L R e L UC o n vB a t c h n o r m F u l l y c o n n e c t e ds i g m o i dR e a l /F a k eL R e L UL R e L U生成器鉴别器图 3 VARSGAN + i-vector 模型网络结构示意图Fig. 3 Structure of VARSGAN + i-vector network7 期李燕萍等: 基于i 向量和变分自编码相对生成对抗网络的语音转换1829本文提出的3种模型相比基准模型, 分别相对降低了4.36%、3.22%和4.80%. VARSGAN + i-vec-tor 模型相比StarGAN 模型相对降低了2.97%. 表明相对生成对抗网络的结合和i 向量的引入能够显著改善转换语音的合成自然度, 有助于提升转换语音的质量.进一步将上述16种转换情形按照源−目标说话人性别划分为具有统计性的4大类, 即同性别转换女−女、男−男和跨性别转换男−女、女−男. 4大类转换情形下不同模型的MCD 值对比如图5所示.进一步分析实验结果可得, 本文提出的方法VARSGAN + i-vector 在跨性别转换下, 女−男类别下的平均MCD 值比男−女类别下的平均MCD 值相对低4.58%, 表明女性向男性的转换性能稍好于男性向女性的转换. 而这一现象在基准系统VAWGAN 、VARSGAN 、VAWGAN + i-vector 和StarGAN 中也不同程度地存在. 原因主要是, 语音的发音主要由基频和丰富的谐波分量构成, 即使同一语句, 由于不同性别说话人之间的基频和谐波结构存在差异较大[24−25], 会导致不同性别说话人之间的转换存在一定的性能差异.3.2 主观评价本文采用反映语音质量的平均意见得分(Mean opinion score, MOS)值和反映说话人个性相似度的ABX 值来评测转换后语音. 主观评测人员为20名有语音信号处理研究背景的老师及硕士研究生,为了避免主观倾向以及减少评测人员的工作量, 从5种模型的各16种转换情形的35句转换语音里面为每个人随机抽取一句, 并将语句顺序进行系统置乱. 其中在ABX 测试中, 评测人员还需同时测听转换语音相对应的源和目标说话人的语音.在MOS 测试中, 评测人员根据听到的转换语音的质量对语音进行打分, 评分分为5个等级: 1分表示完全不能接受, 2分表示较差, 3分表示可接受,4分表示较好, 5分表示非常乐意接受. 本文将16种转换情形划分为4类: 男−男, 男−女, 女−男,女−女, 4类转换情形下5种模型的转换语音MOS 值对比如图6所示.VAWGANVARSGAN2.02.2 2.4 2.62.83.0 3.2 3.4 3.6V ARSGAN + i-vectorStarGAN女男女男V A WGAN + i-vectorMOS 值图 6 5种模型在不同转换类别下的MOS 值对比Fig. 6 Comparison of MOS for different conversioncategories in five models通过分析实验结果可得, VAWGAN 、VARSGAN 、VAWGAN + i-vector 、VARSGAN + i-vector 和StarGAN 的平均MOS 值分别为3.382、3.535、3.471、3.555和3.446. 相比基准模型, 本文3种模型的MOS 值分别相对提高了4.52%、2.63%和5.12%,VARSGAN + i-vector 相比StarGAN 提高了S F 3-T F 1S F 3-T F 2S F 3-T M 1S F 3-T M 2S F 4-T F 1S F 4-T F 2S F 4-T M 1S F 4-T M 2S M 3-T F 1S M 3-T F 2S M 3-T M 1S M 3-T M 2S M 4-T F1SM 4-T F 2S M 4-T M 1S M 4-T M 24.04.55.05.56.0M C D /d BVAWGAN VARSGAN VAWGAN + i-vector VARSGAN + i-vectorStarGAN图 4 16 种转换情形下5种模型的转换语音的MCD 值对比Fig. 4 Average MCD of five models for 16conversion casesG A N V A R S G A N V A W G A N + i -v e c t o r V A R S G A N+ i -v e c t o r S t a r G A N女女女男−女男−男图 5 4大类转换情形下不同模型的MCD 值对比Fig. 5 Comparison of MCD of different models for fourconversion cases1830自 动 化 学 报48 卷。
如何利用ChatGPT技术进行多轮对话生成

如何利用ChatGPT技术进行多轮对话生成ChatGPT技术是一种强大的自然语言处理模型,它能够实现多轮对话生成。
多轮对话生成指的是在一个对话场景中,模型能够根据之前的对话内容理解语境并生成准确合理的回复。
本文将介绍如何利用ChatGPT技术进行多轮对话生成。
首先,要利用ChatGPT技术进行多轮对话生成,我们需要准备数据集。
这里的数据集是指一系列的对话样本,包括输入的对话内容和对应的回复。
数据集可以是从真实对话中收集的,也可以是人工构造的。
对于ChatGPT技术,数据集的质量对生成结果的准确性有很大影响,因此应该尽可能确保数据集的多样性和相关性。
接下来,我们需要将数据集进行预处理。
预处理包括文本清洗、分词和编码等步骤。
文本清洗可以去除一些噪音数据,如特殊字符、html标签等。
分词将文本分割成单词或子词的序列,这可以帮助模型更好地理解文本的含义。
编码将文本转换成机器可以理解的数字表示,常用的编码方式有one-hot编码和词向量编码。
在数据预处理完成后,我们需要选择一个合适的ChatGPT模型进行训练。
目前比较流行的选择是GPT-2和GPT-3。
这些模型具有强大的语言生成能力和对话理解能力,但也需要投入大量的计算资源和时间进行训练。
可以选择直接使用开源的预训练模型,也可以根据自己的需求进行微调。
在训练过程中,我们可以采用基于优化算法的方法,如随机梯度下降(SGD)或自适应优化算法(如Adam),来优化模型的参数。
同时,我们可以通过调整超参数(如学习率、批大小、训练轮数)来提高模型的性能。
此外,还可以采用一些技巧,如dropout、正则化等,来防止模型的过拟合。
在模型训练完成后,我们就可以利用该模型进行多轮对话生成。
对于每一个输入的对话内容,模型会计算出对每个可能回复的概率分布。
我们可以根据这些概率分布选择最合适的回复。
为了增加回复的多样性,我们可以引入一些随机性的机制,如采样方式选择最高概率的回复,或者采用一定的温度参数来平衡概率分布。
基于支持向量机的音字转换模型

基于支持向量机的音字转换模型
姜维;关毅;王晓龙;刘秉权
【期刊名称】《中文信息学报》
【年(卷),期】2007(21)2
【摘要】针对N-gram在音字转换中不易融合更多特征,本文提出了一种基于支持向量机(SVM)的音字转换模型,有效提供可以融合多种知识源的音字转换框架.同时,SVM优越的泛化能力减轻了传统模型易于过度拟合的问题,而通过软间隔分类又在一定程度上克服小样本中噪声问题.此外,本文利用粗糙集理论提取复杂特征以及长距离特征,并将其融合于SVM模型中,克服了传统模型难于实现远距离约束的问题.实验结果表明,基于SVM音字转换模型比传统采用绝对平滑算法的Trigram模型精度提高了1.2%;增加远距离特征的SVM模型精度提高1.6%.
【总页数】6页(P100-105)
【作者】姜维;关毅;王晓龙;刘秉权
【作者单位】哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001;哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001;哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001;哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001
【正文语种】中文
【中图分类】TP391
【相关文献】
1.《三音四声字贯》的“支那音”音系 [J], 苏华
2.近代福建切音字运动史论--切音字运动和汉字改革 [J], 王曦
3.基于最小二乘支持向量机的色彩空间转换模型 [J], 陈梅;刘昕
4.基于最小二乘支持向量机回归的GPS高程转换模型 [J], 田玉刚;罗书明;王新洲;史培军
5.中古入声字新旧音的重叠:北京音系的一字多读及三声读的衍生 [J], 陈重瑜因版权原因,仅展示原文概要,查看原文内容请购买。
改进的一对一多类分类SVM在语音识别中的应用

改进的一对一多类分类SVM在语音识别中的应用何小萍;白静;刘晓峰【摘要】支持向量机一对一多类分类在测试阶段需执行在训练阶段构造好的所有子分类器,耗费较长时间,这一缺点极大地限制了其在大规模数据识别中的应用.提出一种改进的一对一多类分类方法,在测试的中期阶段先对所有类别的得票数进行统计,将得票较低者剔除,不必计算由这些类别构成的子分类器,从而有效减少子分类器的数目.最后将此改进方法应用到抗噪语音识别系统中,实验结果表明该方法具有一定的优势.%For one-against-one multi-classification method of Support Vector Machine (SVM) , all sub-classifiers that have been constructed during training phase are executed, which takes longer predicting time. This shortcoming greatly limits its application in the identification of large-scale datasets. Hence an improved one-against-one multi-class support vector machine is proposed. In the middle of the testing phase, statistics votes of all the categories , the lower of which will be removed, and the sub-classifiers constituted by these categories is not caculated. In this case,sub-classifiers can be reduced effectively. Finally, the improved method is applied to speech recognition system with noise immunity. The experiment results show that the method has certain advantages.【期刊名称】《科学技术与工程》【年(卷),期】2013(013)010【总页数】4页(P2686-2689)【关键词】支持向量机;多类分类;一对一;语音识别【作者】何小萍;白静;刘晓峰【作者单位】太原理工大学信息工程学院,太原030024【正文语种】中文【中图分类】TN912.34语音识别是机器通过识别过程把语音信号转换成相应的文本或命令,最终实现人机通信的一项技术。
基于多特征i-vector的短语音说话人识别算法

基于多特征i-vector的短语音说话人识别算法孙念;张毅;林海波;黄超【期刊名称】《计算机应用》【年(卷),期】2018(038)010【摘要】当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降.针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法.该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析(PCA)去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析(LDA)挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能.结合TIMIT语料库进行实验,同一时长的短语音(2 s)条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知对数面积比系数(PLAR)特征系统在等错误率(EER)上分别有相对72.16%、69.47%和73.62%的下降.不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数(DCF)上大致都有50%的降低.基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能.【总页数】5页(P2839-2843)【作者】孙念;张毅;林海波;黄超【作者单位】重庆邮电大学先进制造工程学院,重庆400065;重庆邮电大学先进制造工程学院,重庆400065;重庆邮电大学自动化学院,重庆400065;重庆邮电大学先进制造工程学院,重庆400065【正文语种】中文【中图分类】TN912.3【相关文献】1.基于i-vector说话人识别算法中训练时长研究 [J], 马平;黄浩;程露红;杨萌萌2.基于DNN处理的鲁棒性I-Vector说话人识别算法 [J], 王昕;张洪冉3.基于i-vector全局参数联合的说话人识别 [J], 杨明亮;龙华;邵玉斌;杜庆治4.基于多特征I-Vector的说话人识别算法 [J], 赵宏;岳鲁鹏;常兆斌;王伟杰5.基于改进信道补偿的I-vector说话人识别 [J], 罗家诚因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910304431.X
(22)申请日 2019.04.16
(71)申请人 南京邮电大学
地址 210003 江苏省南京市鼓楼区新模范
马路66号
(72)发明人 李燕萍 袁昌龙 左宇涛 张燕
(74)专利代理机构 南京苏高专利商标事务所
(普通合伙) 32204
代理人 柏尚春
(51)Int.Cl.
G10L 17/02(2013.01)
G10L 17/04(2013.01)
G10L 17/18(2013.01)
G10L 17/22(2013.01)
G10L 25/18(2013.01)
(54)发明名称
基于i向量和VARSGAN的多对多语音转换方
法
(57)摘要
本发明公开了一种基于i向量和VARSGAN的
多对多语音转换方法,包括训练阶段和转换阶
段,使用了VARSGAN(变分自编码器相对生成对抗
网络)与i向量相结合的方式实现语音转换。
通过
构造相对判别器的方式,使得判别器的输出依赖
于真实样本和生成样本间的相对值,在训练生成
器时真实样本也能参与训练,从而改善了判别器
中可能存在的偏置情况,使得梯度更加稳定,训
练更加容易,并且把真实样本引入到生成器的训
练中,从而加快了GAN的收敛速度,另外加入了能
够充分表征说话人的个性特征的i向量,充分学
习语义特征和说话人的个性化特征,从而更好地
提升转换后语音的个性相似度和语音质量。
权利要求书2页 说明书7页 附图1页CN 110060691 A 2019.07.26
C N 110060691
A
权 利 要 求 书1/2页CN 110060691 A
1.一种基于i向量和VARSGAN的多对多语音转换方法,分为训练阶段和转换阶段,其特征在于:所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、对数基频logf0和非周期特征;
(1.3)将频谱包络特征x、说话人标签y、说话人i向量i输入VARSGAN网络进行训练,VARSGAN网络由编码器、生成器和鉴别器组成;
(1.4)训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VARSGAN网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人的语音通过WORLD语音分析/合成模型提取出频谱包络特征x's、非周期性特征和对数基频logf'0s;
(2.2)将频谱包络特征x's、目标说话人标签特征y't、目标说话人i向量i't输入(1.4)中训练好的VARSGAN网络,重构出目标说话人频谱包络特征x'tc;
(2.3)通过(1.5)得到的基频转换函数,将(2.1)中提取出的源说话人对数基频logf'0s 转换为目标说话人的对数基频logf'0t;
(2.4)将(2.2)中得到的目标说话人频谱包络特征x'tc、(2.3)中得到的目标说话人的对数基频logf'0t和(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
2.根据权利要求1所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于:步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将频谱包络特征x输入到所述VARSGAN网络中的编码器,经过网络训练后得到语义特征z(x);
(2)将z(x)、y、i输入生成器进行训练,使生成器的损失函数尽量小,得到目标说话人频谱包络特征x c;
(3)将x c和x输入所述鉴别器进行训练,使鉴别器的损失函数尽量大;
(4)重复步骤(1)、(2)和(3),直至达到预设置的迭代次数,从而得到训练好的VARSGAN 网络。
3.根据权利要求1所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于步骤(2.2)中的输入过程包括以下步骤:
(1)将频谱包络特征x'输入VARSGAN网络的编码器,得到说话人无关的语义特征z(x');
(2)将得到的语义特征z(x')与目标说话人标签特征y't、目标说话人i向量i t'输入到所述的生成器中,重构出目标说话人频谱包络特征x'tc。
4.根据权利要求1所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于:所述的编码器采用二维卷积神经网络,由5个卷积层构成,5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
5.根据权利要求1所述的基于i向量和VARSGAN的多对多语音转换方法,其特征在于:所
2。