语音人机交互PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
波形拼接
(1)PSOLA(基音同步叠加)合成
参数合成法
早期的研究主要采用参数合成方法,它是计算发音器官的参数, 从而对人的发音进行直接模拟。如著名的Klatt的共振峰合成系统。 后来又产生了基于LPC、LSP等声学参数的合成系统。
这些方法用来建立声学模型的过程为:首先录制声音,这些声音 涵盖了人发音过程中所有可能出现的读音;提取出这些声音的声 学参数,并整合成一个完整的音库。在发音过程中,首先根据需 要发的音,从音库中选择合适的声学参数,然后根据韵律模型中 得到的韵律参数,通过合成算法产生语音。
韵律分析
任何人说话都有韵律特征,比如汉语中,人说话有 语调、节奏、重音等变化,反映出不同的语气、不 同的发音长短、不同的停顿方式等.
韵律参数包括了能影响这些特征的声学参数,如: 基频、音长、音强等.为合成语音规划出音段特征, 如音高、音长和音强等,使合成语音能正确表达语 意,听起来更加自然。
韵律生成有基于规则和基于语料库的数据驱动 两种方法
缺点:需要大量的时间去总结规则,且模块性能的好 坏严重依赖于设计人员的经验以及他们的相应的背 景知识。
应用:这些方法能够取得较好的分析效果,直到目前, 这些方法依然被广泛的使用。
基于统计与人工神经网络的方法
(连续语音识别的逆过程,语言模型部分)
基于数据驱动的文本分析方法 具有代表性的有: 二元文法法(Di—Grammar Method)、三元文法 法(Tri-Grammar Method)、隐马儿可夫模型法 和神经网络法等等。
第4章 人机主要交互技术
(新一代人机交互技术)
语音人机交互
语音 语音
自然语言
输入 识别
处理
交 互
应用程序
管
语音 语音
自然语言
理
输出 合成
生成
语音合成
• 语音合成技术是使电脑或通信终端具有类似于人 一样的说话能力的一项技术
• 让机器说话可以通过录音/重放,或语音合成实现 • 文语转换是语音合成的一种应用形式 • 文语转换是连续语音识别的逆过程
文本规整
自动分词
系统词库
文
本
多音字处理
多音字词库
分
析
声调判定
变调规则库
的
任
特殊声调调整
特殊声调
务
规则
特殊符号
停顿处理 语音处理
文本分析的主要工作步骤
(1)文本规整 将输入的文本规范化。在这个过程中,要查找拼写错 误,处理缩略语与外文字词等,同时分析文本中出现的 数字、特殊字符、专有词语, 并将文本中出现的一些不 规范或无法发音的字符过滤掉。
(2)词的切分和词法分析 分析文本中词或短语的边界,确定文字的读音,以及 各种多音字的读音方式。
文本分析的主要工作步骤
(3)语法和语义分析 根据文本的结构、组成和不同位置上出现的标点符号, 确定语气的变换以及不同音的轻重方式,即语言学处理。 确定停顿位置,长短,语调升降,语法重音等
(4) 输出 文本分析模块将输入的文字转换成计算机能够处理的 内部参数,便于后续模块进一步处理并生成相应的信 息。
电子合成器VODER(VOice DEmonstratoR). • 20世纪70年代,线性预测技术用于语音合成
语句阶段,注重韵律
• 1980年,MIT的D.Klatt设计制造了著名的共振峰语音合成器 • 1986年,E.Moulines和F.Charpentier提出了基于时域波形修改的
语音合成算法PSOLA • 2000s,Unit-selection,N. Campbell & A. Black
国外语音合成的发展
孤Fra Baidu bibliotek词/音段阶段,注重音色(音质,音品)
• 语音合成的最早研究始于1779年Kratzen sten的研究.他用一 些材料制成具有各种特殊形状的共鸣腔, 目的是研究如何用 管形器官模型来模拟5个单元音 A、E 、 I、0、U
• 1791年,Von Kempelen制成了一种能说话的机器 • 1939年, BELL LAB的H.Dudley应用共振峰原理制作了第一个
(1)基于规则的方法
音高规则
变调规则 轻声规则 协同发音
音长规则 能量规则
两点说明
1. 要求有大量的音韵学知识。
2. 基于规则的方法,仍然被认作是行之有效的 方法。目前大部分汉语的语音合成系统依然 采用这种方法。
(2)基于数据驱动的韵律模型(人工神经网络方
法,统计方法)
基于大规模语料库的韵律建模: 通过神经网络或统计驱 动的方法进行韵律生成, 其实现步骤是首先设计或收集 包含大量语音和文本信息的数据,然后建立一个训练 模型,用数据库中提取出的韵律参数对模型进行训练, 通过训练而得到最终的韵律模型。
文本分析的主要方法/词的切分方法
(1)基于规则的方法 (2)基于统计的方法 (3)人工神经网络的方法
基于规则(Rule-based)的方法
• 正向最大匹配法、 • 反向最大匹配法、 • 逐词遍历法. • 最佳匹配法、 • 二次扫描法等等。
基于规则方法的特点
优点:结构较为简单、直观,易于实现。
语音合成的层次
按照人类语言功能的不同层次,语音合成可分 为三个层次:
(1)从文字到语音的合成(Text-to-Speech) (2)从概念到语音的合成(Concept-to-Speech) (3)从意向到语音的合成(Intention-to-Speech)
文语转换系统组成
语言学 处理规则
协同发音/ 韵律规则
语音生成
• 根据韵律建模的结果,从原始音库中取出相应的语 音基元,利用特定的语音合成技术对语音基元进行 韵律特性的调整和修改,最终合成出符合要求的语 音。
语音生成主要方法
规则合成
按韵律规则,缩减规则等,将预先存好的语音单元拼接起来. 需要对文本理解,有些复杂.
参数合成
(1)共振峰合成(Pitch Synchronous OverLap Add) (2)LPC(线性预测编码)合成 (3)其它如LSP和LMA合成
语音 合成技术
文本
文本分析
韵律分析
语音合成
输出语音
字典/词库 分词规则
多音字库 儿化音库
语音库
语音合成系统的三个主要组成部分:
文本分析模块 韵律分析模块 语音生成模块
文本分析主要功能
使计算机从这些文本中能够认识文字,从而知道要 发什么音、怎么发音(声调),并将发音的方式告诉 计算机,另外还要让计算机知道文本中,哪些是词, 哪些是短语、句子,发音时到哪应该停顿,停顿多 长等等
(1)PSOLA(基音同步叠加)合成
参数合成法
早期的研究主要采用参数合成方法,它是计算发音器官的参数, 从而对人的发音进行直接模拟。如著名的Klatt的共振峰合成系统。 后来又产生了基于LPC、LSP等声学参数的合成系统。
这些方法用来建立声学模型的过程为:首先录制声音,这些声音 涵盖了人发音过程中所有可能出现的读音;提取出这些声音的声 学参数,并整合成一个完整的音库。在发音过程中,首先根据需 要发的音,从音库中选择合适的声学参数,然后根据韵律模型中 得到的韵律参数,通过合成算法产生语音。
韵律分析
任何人说话都有韵律特征,比如汉语中,人说话有 语调、节奏、重音等变化,反映出不同的语气、不 同的发音长短、不同的停顿方式等.
韵律参数包括了能影响这些特征的声学参数,如: 基频、音长、音强等.为合成语音规划出音段特征, 如音高、音长和音强等,使合成语音能正确表达语 意,听起来更加自然。
韵律生成有基于规则和基于语料库的数据驱动 两种方法
缺点:需要大量的时间去总结规则,且模块性能的好 坏严重依赖于设计人员的经验以及他们的相应的背 景知识。
应用:这些方法能够取得较好的分析效果,直到目前, 这些方法依然被广泛的使用。
基于统计与人工神经网络的方法
(连续语音识别的逆过程,语言模型部分)
基于数据驱动的文本分析方法 具有代表性的有: 二元文法法(Di—Grammar Method)、三元文法 法(Tri-Grammar Method)、隐马儿可夫模型法 和神经网络法等等。
第4章 人机主要交互技术
(新一代人机交互技术)
语音人机交互
语音 语音
自然语言
输入 识别
处理
交 互
应用程序
管
语音 语音
自然语言
理
输出 合成
生成
语音合成
• 语音合成技术是使电脑或通信终端具有类似于人 一样的说话能力的一项技术
• 让机器说话可以通过录音/重放,或语音合成实现 • 文语转换是语音合成的一种应用形式 • 文语转换是连续语音识别的逆过程
文本规整
自动分词
系统词库
文
本
多音字处理
多音字词库
分
析
声调判定
变调规则库
的
任
特殊声调调整
特殊声调
务
规则
特殊符号
停顿处理 语音处理
文本分析的主要工作步骤
(1)文本规整 将输入的文本规范化。在这个过程中,要查找拼写错 误,处理缩略语与外文字词等,同时分析文本中出现的 数字、特殊字符、专有词语, 并将文本中出现的一些不 规范或无法发音的字符过滤掉。
(2)词的切分和词法分析 分析文本中词或短语的边界,确定文字的读音,以及 各种多音字的读音方式。
文本分析的主要工作步骤
(3)语法和语义分析 根据文本的结构、组成和不同位置上出现的标点符号, 确定语气的变换以及不同音的轻重方式,即语言学处理。 确定停顿位置,长短,语调升降,语法重音等
(4) 输出 文本分析模块将输入的文字转换成计算机能够处理的 内部参数,便于后续模块进一步处理并生成相应的信 息。
电子合成器VODER(VOice DEmonstratoR). • 20世纪70年代,线性预测技术用于语音合成
语句阶段,注重韵律
• 1980年,MIT的D.Klatt设计制造了著名的共振峰语音合成器 • 1986年,E.Moulines和F.Charpentier提出了基于时域波形修改的
语音合成算法PSOLA • 2000s,Unit-selection,N. Campbell & A. Black
国外语音合成的发展
孤Fra Baidu bibliotek词/音段阶段,注重音色(音质,音品)
• 语音合成的最早研究始于1779年Kratzen sten的研究.他用一 些材料制成具有各种特殊形状的共鸣腔, 目的是研究如何用 管形器官模型来模拟5个单元音 A、E 、 I、0、U
• 1791年,Von Kempelen制成了一种能说话的机器 • 1939年, BELL LAB的H.Dudley应用共振峰原理制作了第一个
(1)基于规则的方法
音高规则
变调规则 轻声规则 协同发音
音长规则 能量规则
两点说明
1. 要求有大量的音韵学知识。
2. 基于规则的方法,仍然被认作是行之有效的 方法。目前大部分汉语的语音合成系统依然 采用这种方法。
(2)基于数据驱动的韵律模型(人工神经网络方
法,统计方法)
基于大规模语料库的韵律建模: 通过神经网络或统计驱 动的方法进行韵律生成, 其实现步骤是首先设计或收集 包含大量语音和文本信息的数据,然后建立一个训练 模型,用数据库中提取出的韵律参数对模型进行训练, 通过训练而得到最终的韵律模型。
文本分析的主要方法/词的切分方法
(1)基于规则的方法 (2)基于统计的方法 (3)人工神经网络的方法
基于规则(Rule-based)的方法
• 正向最大匹配法、 • 反向最大匹配法、 • 逐词遍历法. • 最佳匹配法、 • 二次扫描法等等。
基于规则方法的特点
优点:结构较为简单、直观,易于实现。
语音合成的层次
按照人类语言功能的不同层次,语音合成可分 为三个层次:
(1)从文字到语音的合成(Text-to-Speech) (2)从概念到语音的合成(Concept-to-Speech) (3)从意向到语音的合成(Intention-to-Speech)
文语转换系统组成
语言学 处理规则
协同发音/ 韵律规则
语音生成
• 根据韵律建模的结果,从原始音库中取出相应的语 音基元,利用特定的语音合成技术对语音基元进行 韵律特性的调整和修改,最终合成出符合要求的语 音。
语音生成主要方法
规则合成
按韵律规则,缩减规则等,将预先存好的语音单元拼接起来. 需要对文本理解,有些复杂.
参数合成
(1)共振峰合成(Pitch Synchronous OverLap Add) (2)LPC(线性预测编码)合成 (3)其它如LSP和LMA合成
语音 合成技术
文本
文本分析
韵律分析
语音合成
输出语音
字典/词库 分词规则
多音字库 儿化音库
语音库
语音合成系统的三个主要组成部分:
文本分析模块 韵律分析模块 语音生成模块
文本分析主要功能
使计算机从这些文本中能够认识文字,从而知道要 发什么音、怎么发音(声调),并将发音的方式告诉 计算机,另外还要让计算机知道文本中,哪些是词, 哪些是短语、句子,发音时到哪应该停顿,停顿多 长等等