语音人机交互PPT课件

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
波形拼接
(1)PSOLA(基音同步叠加)合成
参数合成法
早期的研究主要采用参数合成方法,它是计算发音器官的参数, 从而对人的发音进行直接模拟。如著名的Klatt的共振峰合成系统。 后来又产生了基于LPC、LSP等声学参数的合成系统。
这些方法用来建立声学模型的过程为:首先录制声音,这些声音 涵盖了人发音过程中所有可能出现的读音;提取出这些声音的声 学参数,并整合成一个完整的音库。在发音过程中,首先根据需 要发的音,从音库中选择合适的声学参数,然后根据韵律模型中 得到的韵律参数,通过合成算法产生语音。
韵律分析
任何人说话都有韵律特征,比如汉语中,人说话有 语调、节奏、重音等变化,反映出不同的语气、不 同的发音长短、不同的停顿方式等.
韵律参数包括了能影响这些特征的声学参数,如: 基频、音长、音强等.为合成语音规划出音段特征, 如音高、音长和音强等,使合成语音能正确表达语 意,听起来更加自然。
韵律生成有基于规则和基于语料库的数据驱动 两种方法
缺点:需要大量的时间去总结规则,且模块性能的好 坏严重依赖于设计人员的经验以及他们的相应的背 景知识。
应用:这些方法能够取得较好的分析效果,直到目前, 这些方法依然被广泛的使用。
基于统计与人工神经网络的方法
(连续语音识别的逆过程,语言模型部分)
基于数据驱动的文本分析方法 具有代表性的有: 二元文法法(Di—Grammar Method)、三元文法 法(Tri-Grammar Method)、隐马儿可夫模型法 和神经网络法等等。
第4章 人机主要交互技术
(新一代人机交互技术)
语音人机交互
语音 语音
自然语言
输入 识别
处理
交 互
应用程序

语音 语音
自然语言

输出 合成
生成
语音合成
• 语音合成技术是使电脑或通信终端具有类似于人 一样的说话能力的一项技术
• 让机器说话可以通过录音/重放,或语音合成实现 • 文语转换是语音合成的一种应用形式 • 文语转换是连续语音识别的逆过程
文本规整
自动分词
系统词库


多音字处理
多音字词库


声调判定
变调规则库


特殊声调调整
特殊声调

规则
特殊符号
停顿处理 语音处理
文本分析的主要工作步骤
(1)文本规整 将输入的文本规范化。在这个过程中,要查找拼写错 误,处理缩略语与外文字词等,同时分析文本中出现的 数字、特殊字符、专有词语, 并将文本中出现的一些不 规范或无法发音的字符过滤掉。
(2)词的切分和词法分析 分析文本中词或短语的边界,确定文字的读音,以及 各种多音字的读音方式。
文本分析的主要工作步骤
(3)语法和语义分析 根据文本的结构、组成和不同位置上出现的标点符号, 确定语气的变换以及不同音的轻重方式,即语言学处理。 确定停顿位置,长短,语调升降,语法重音等
(4) 输出 文本分析模块将输入的文字转换成计算机能够处理的 内部参数,便于后续模块进一步处理并生成相应的信 息。
电子合成器VODER(VOice DEmonstratoR). • 20世纪70年代,线性预测技术用于语音合成
语句阶段,注重韵律
• 1980年,MIT的D.Klatt设计制造了著名的共振峰语音合成器 • 1986年,E.Moulines和F.Charpentier提出了基于时域波形修改的
语音合成算法PSOLA • 2000s,Unit-selection,N. Campbell & A. Black
国外语音合成的发展
孤Fra Baidu bibliotek词/音段阶段,注重音色(音质,音品)
• 语音合成的最早研究始于1779年Kratzen sten的研究.他用一 些材料制成具有各种特殊形状的共鸣腔, 目的是研究如何用 管形器官模型来模拟5个单元音 A、E 、 I、0、U
• 1791年,Von Kempelen制成了一种能说话的机器 • 1939年, BELL LAB的H.Dudley应用共振峰原理制作了第一个
(1)基于规则的方法
音高规则
变调规则 轻声规则 协同发音
音长规则 能量规则
两点说明
1. 要求有大量的音韵学知识。
2. 基于规则的方法,仍然被认作是行之有效的 方法。目前大部分汉语的语音合成系统依然 采用这种方法。
(2)基于数据驱动的韵律模型(人工神经网络方
法,统计方法)
基于大规模语料库的韵律建模: 通过神经网络或统计驱 动的方法进行韵律生成, 其实现步骤是首先设计或收集 包含大量语音和文本信息的数据,然后建立一个训练 模型,用数据库中提取出的韵律参数对模型进行训练, 通过训练而得到最终的韵律模型。
文本分析的主要方法/词的切分方法
(1)基于规则的方法 (2)基于统计的方法 (3)人工神经网络的方法
基于规则(Rule-based)的方法
• 正向最大匹配法、 • 反向最大匹配法、 • 逐词遍历法. • 最佳匹配法、 • 二次扫描法等等。
基于规则方法的特点
优点:结构较为简单、直观,易于实现。
语音合成的层次
按照人类语言功能的不同层次,语音合成可分 为三个层次:
(1)从文字到语音的合成(Text-to-Speech) (2)从概念到语音的合成(Concept-to-Speech) (3)从意向到语音的合成(Intention-to-Speech)
文语转换系统组成
语言学 处理规则
协同发音/ 韵律规则
语音生成
• 根据韵律建模的结果,从原始音库中取出相应的语 音基元,利用特定的语音合成技术对语音基元进行 韵律特性的调整和修改,最终合成出符合要求的语 音。
语音生成主要方法
规则合成
按韵律规则,缩减规则等,将预先存好的语音单元拼接起来. 需要对文本理解,有些复杂.
参数合成
(1)共振峰合成(Pitch Synchronous OverLap Add) (2)LPC(线性预测编码)合成 (3)其它如LSP和LMA合成
语音 合成技术
文本
文本分析
韵律分析
语音合成
输出语音
字典/词库 分词规则
多音字库 儿化音库
语音库
语音合成系统的三个主要组成部分:
文本分析模块 韵律分析模块 语音生成模块
文本分析主要功能
使计算机从这些文本中能够认识文字,从而知道要 发什么音、怎么发音(声调),并将发音的方式告诉 计算机,另外还要让计算机知道文本中,哪些是词, 哪些是短语、句子,发音时到哪应该停顿,停顿多 长等等
相关文档
最新文档