基于深度学习的情感语音合成方法及设备的制作技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本技术公开一种基于深度学习的情感语音合成方法及装置,属于语音合成领域,该方法至少包括如下步骤:提取待处理文本信息及待处理文本信息的前文信息,前文信息包括前文文本信息;为待处理文本信息及前文信息为输入,通过预先构建的第一模型生成情感特征信息;以情感特征信息及待处理文本信息为输入,通过预先训练的第二模型合成情感语音,该方法能实现在仅获得文本信息的基础上,基于深度学习,实现情感语音的合成,而不需要人工预先对每个声学发音进行标注情感,该方法在缩减人力成本的同时,可进一步降低标注误差,提高情感信息的切合度,丰富对话语音情感,提升合成语音的自然度、流畅度,提高人机交流体验,且适应性较广。

权利要求书

1.一种基于深度学习的情感语音合成方法,其特征在于,所述方法至少包括如下步骤:

提取待处理文本信息及所述待处理文本信息的前文信息,所述前文信息包括前文文本信息;以所述待处理文本信息及前文信息为输入,通过预先构建的第一模型生成情感特征信息;以所述情感特征信息及待处理文本信息为输入,通过预先训练的第二模型合成情感语音。

2.根据权利要求1所述的一种基于深度学习的情感语音合成方法,其特征在于,所述第一模型包括依次连接的第一子模型、第二子模型及第三子模型,所述以所述待处理文本信息及前

文信息为输入,通过预先构建的第一模型生成情感特征信息,具体包括如下子步骤:

以所述待处理文本信息及前文信息为输入,通过预先训练的第一子模型进行特征提取以获得第一中间输出;

以所述第一中间输出及待处理文本信息为输入,通过预先训练的第二子模型进行特征提取以获得情感类型及第二中间输出;

以所述第二中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入,通过预先训练的第三子模型进行特征提取以获得情感特征信息。

3.根据权利要求1所述的一种基于深度学习的情感语音合成方法,其特征在于,当所述前文信息还包括前文语音信息时,所述第一模型包括依次连接的第四子模型、第五子模型及第六子模型,所述以所述待处理文本信息及前文信息为输入,通过预先构建的第一模型生成情感特征信息,具体包括如下子步骤:

以所述待处理文本信息及前文信息为输入,通过预先训练的第四子模型进行特征提取以获得第四中间输出;

以所述第四中间输出及待处理文本信息为输入,通过预先训练的第五子模型进行特征提取以获得第五中间输出;

以所述第五中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入,通过预先训练的第六子模型进行特征提取以获得情感特征信息。

4.根据权利要求2或3所述的一种基于深度学习的情感语音合成方法,其特征在于,预先训练所述第二模型时,具体包括如下子步骤:

提取视频样本的视频图像样本、文本信息样本及对话信息样本;

按照预设情感分类,对所述视频图像样本进行标注获得情感标注信息样本;

以所述视频图像样本为输入,以所述情感标注信息样本为输出,训练第三模型,并提取所述第三模型的第三中间输出作为所述视频图像样本的情感信息;

以所述情感信息及文本信息样本为输入,以对话信息样本为输出,训练第二模型。

5.根据权利要求4所述的一种基于深度学习的情感语音合成方法,其特征在于,预先训练所述第一模型时,具体包括如下子步骤:

提取视频样本的当前文本信息样本及前文信息样本,所述前文信息样本包括前文文本信息样本;

以所述当前文本信息样本及前文信息样本为输入,且以所述当前文本信息样本相对所述前文信息样本的情感是否变化为输出,训练获得所述第一子模型,并提取所述第一子模型中间输出的第一中间输出;

以所述第一中间输出及当前文本信息样本为输入,且以情感类型为输出,训练获得所述第二子模型,并提取所述第二子模型中间输出的第二中间输出;

以所述第二中间输出、当前文本信息样本、情感类型或接收的用户指定情感类型为输入,且以所述模型三获得的情感信息为输出,训练获得所述第三子模型。

6.根据权利要求4所述的一种基于深度学习的情感语音合成方法,其特征在于,预先训练所述第一模型时,具体包括如下子步骤:

提取视频样本的当前文本信息样本及前文信息样本,所述前文信息样本包括前文文本信息样本及前文语音信息样本;

以所述当前文本信息样本及前文信息样本为输入,且以所述当前文本信息样本相对所述前文信息样本的情感是否变化为输出,训练获得所述第四子模型,并提取所述第四子模型中间输出的第四中间输出;

以所述第四中间输出及当前文本信息样本为输入,且以情感类型为输出,训练获得所述第五子模型,并提取所述第五子模型中间输出的第五中间输出及情感类型;

以所述第五中间输出、当前文本信息样本、情感类型或接收的用户指定情感类型为输入,且以所述模型三获得的情感信息为输出,训练获得所述第六子模型。

7.根据权利要求5或6所述的一种基于深度学习的情感语音合成方法,其特征在于,所述预先训练所述第二模型时,还包括视频样本预处理,其至少包括:

按照预设时间间隔,将所述视频图像样本分为若干段视频图像子样本,并将任一时间间隔内的文本作为当前文本信息样本,将所述任一时间间隔之前的文本作为前文文本信息样本。

8.一种基于权利要求1~7任意一项所述方法的基于深度学习的情感语音合成装置,其特征在于:所述装置至少包括:

提取模块:用于提取待处理文本信息及所述待处理文本信息的前文信息,所述前文信息包括前文文本信息;

情感特征信息生成模块:用于以所述待处理文本信息及前文信息为输入,通过预先构建的第一模型生成情感特征信息;

情感语音合成模块:用于以所述情感特征信息及待处理文本信息为输入,通过预先训练的第二模型合成情感语音。

9.根据权利要求8所述的一种基于深度学习的情感语音合成装置,其特征在于,所述第一模型包括依次连接的第一子模型、第二子模型及第三子模型,所述情感特征信息生成模块至少包括:

第一特征提取单元:用于以所述待处理文本信息及前文信息为输入,通过预先训练的第一子模型进行特征提取以获得第一中间输出;

相关文档
最新文档