语音信息处理及相关的语言信息处理

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语法词与韵律词不等同
15
我
买了八本书。
文本分析模块流程
词典分词合并韵律词合并韵律短语
变音处理
参数生成
16
汉语的韵律结构的定义
• 广义的定义：
广义地说, 韵律结构应当包括重音、节奏和语调三个方面的结构。例如重音的位置分布及其等级差异，韵律边界的位置分布及其等级差异，语调的基本骨架及其跟声调和重音的关系。主要讨论韵律切分问题。包括韵律词的组成与韵律短语切分等等，也就是说话时组词断句的模式，它属于语音的节奏方面的问题。
17
汉语的韵律成分
韵律成分ห้องสมุดไป่ตู้小到大依次是莫拉、音节、音
步、音系词（phonological word）、附着
语素词组、音系短语（phonological
phrase)、语调短语和韵律语句。
一个较小的韵律成分包含在一个更大的韵
律成分中。
18
汉语的韵律成分
Level Tags Break 0 Reduced syllabic boundary 1 Normal syllabic boundary Normal slow low low 2 Prosodic word (PW) 3 Prosodic phrase (PPh) 4 Breath group (BG) ** very quick very high very high 5 Prosodic group (PG) ** ** ** **
12
文本分析模块流程
语句切分文本规范化符号处理数字处理词典分词

进行相关标点符号的处理
数字中‘,’的处理 12.3、166.111.68.142 km、T等量词的处理年份1998/07/20、97-10-10、
1999.07.05等等时间23:05:03、比值－5℃、电话中BP机呼号、区号、转分机等等、－5、80－100、减号等
Emphasis Reduced Speech Rate Volume Pitch very slow very low very low
moderate strong normal normal normal quick high high
Range
very small
small
normal
large
语音合成系统的发展
可懂度、清晰度高自然度较好，语调平缓
表现力（情感、风格、个性化）欠佳
合成语音可懂与清晰数据驱动拼接合成（Festival）合成语音自然且表现丰富
高表现力的语音合成
自然语音
计算机生成语音
规则驱动共振峰合成（DecTalk）
讲话机（ Wolfgang ）
合成算法
介绍语音信息处理的基本组成和原理，特别关注语音信息处理中与文字相关的问题。
7
TTS的系统结构
语音数据库预处理语言学处理语音学处理波形拼接合成
语音
文本
文本分析
韵律生成
语音合成
8
TTS的系统结构
文本分析
合成算法
基元选取
9
文本分析模块流程
文本语句切分文本规范化符号处理数字处理词典分词合并韵律词合并韵律短语变音处理参数生成
very large
**
19
口语语音的例子
几处停顿？这句话是否结束？我永遠忘不了<B3/25ms>一張對日抗戰時的新聞照片， <B3/507ms>轟炸後的廢墟焦土上，<B3/272ms>一個衣不蔽體、<B3/384ms>滿身塵土灰煙的幼兒<B3/100ms> 坐在地上<B3/75ms>無助的大哭著。<B5/1110ms>那是一再令我熱淚盈眶的鏡頭。<B3/507ms>新聞攝影中的戰爭傳真<B3/276ms>已不能只稱是照片了。<B5/802ms> 台湾：郑秋豫教授

5
什么是语音识别?

语音识别就是让计算机听懂人的讲话。语音识别的研究目标是：听懂连续自然、非特定人。
6
语音信息处理及相关的语言信息处理

语音是语言的外壳，文字是语言的转写。韵律、语法和语义均为语言信息处理的内容。
它们相互联系、相互制约，共同构成语言理解的基础。然而对上述语言信息的分析和研究是独立展开的。
十二号的天气/的确好
12号的天气的确好。 12号的天气的确好/。十二号的天气的确好十二/m 号/q 的/u 天气/n 的确/d 好/a
读音韵律信息
shi2 er4 hao4 de5| tian1 qi4/ di2 que4 hao3//
10
文本分析模块流程
语句切分文本规范化符号处理数字处理词典分词

根据回车、换行、或其他设置的分句符号进行句子的切分。后续的处理针对当前得到的句子
11
文本分析模块流程
语句切分文本规范化符号处理数字处理词典分词

将语句切分成一个一个的片段Piece，每个Piece具有相同的类别，如：数字、符号、英文字母串(Letter)、汉字等等患者｜1．15万人，｜并且｜每年｜又以｜1500 例的｜速度｜快速｜大幅｜增加。
韵律
表现
4
1791年
1980年代
1990年代
目前
文字-语音转换（Text To Speech）
文语转换（ TTS ）是语音合成技术的延伸，它能把计算机内的文本转换成连续自然的语声流。 Text To Speech synthesis involves the computation of a speech signal from input text.
某人问你：你愿意和我一起去看电影吗？你的回答可能是： “是的，我很高兴和你一起去看电影。”（肯定，高兴） “抱歉，我不能和你一起去看电影，因为我要去开会。” （无可奈何） “不去，还是你自己去看吧。”（否定）人们用语言进行交流时，用声音来表达事实，也表达意向、情感。计算机也应该像人那样讲话。
3
13
文本分析模块流程
语句切分文本规范化符号处理数字处理词典分词

数字读法的处理比如年份、公元、日期、电话、电报等等
14
文本分析模块流程
词典分词合并韵律词合并韵律短语变音处理参数生成
分词，标记词性分词不准确
｜许多｜年轻｜人手｜牵｜五彩的｜气球｜合影｜留念。分词单位太大自民党｜领导人｜日里诺斯基｜ 1946年｜4月｜出生。发展中国家
语音信息处理及相关的语言信息处理
语音信息处理是人机交互的重要组成部分。
主要包括语音合成和语音识别。

语音合成是将文字转换成语音；

语音识别是将识别语音转写成文字。
1
演示
Chinese TTVS
Voice masker
2
什么是语音合成?

语音合成就是让计算机象人那样讲话。

语音合成的研究目标是：可懂、清晰、自然、具有表现力。

语音信息处理 及相关的语言信息处理

语音信息处理及相关的语言信息处理