语音基础知识和合成原理

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

均匀量化与非均匀量化
• 如果采用相等的量化间隔对采样得到的信号作量化，那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化
均匀量化与非均匀量化
• 非均匀量化，又叫非线性量化，基本想法是，对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔
• 语音（Speech）
– 带有语言信息的声音
• 语音处理（Speech processing)
– 以工程技术处理语音信号
语音处理的相关技术
• 语音编码（Speech Coding）
• 语音增强（Speech Enhancement）
• 语音合成（Speech Synthesis）
• 语音识别（ Speech Recognition ）
语音技术示意图
Speech Coding
Speech and Enhancement Speech
Speech Recognitio
n
Text
Language /Translation /technology
Text to Speech
Text
Meaning Understanding
语音数据
• 语音数据有多种编码格式：
采样率
量化
• 在采样的过程中，不断连续变化的波形信号要用数字來表示，这样的过程不可避免的将引入误差(Quantization error)，这种量化误差是实际语音信号的振幅和语音数字化之间的差异。如果再把数字化的语音还原为模拟声音，量化误差就会表现为失真(Distortion)。
• 我们可以用增加量化大小的方式來降低量化误差，提高精度，也就是利用更多位数的数字(bits)來表示一个采样信号，这样就可以提高精确度，最大程度地保持原先声波的形狀，约接近声波原形则所需解析度约高。若以8位数字來记录采样，則其所能表达的组合种类是2的8次方，即256，表示用8 位数字的采样大小能分辨出256个层次的声音；若采用16位数字來量化，則能分辨的差异將高达2的16次方，为65536，其精确度当然大大提高，音量起伏的大小变化就能够更精细地被记录下来。这样失真就会更小，就更接近原始的声音表现。
字转换（ Analog-to-Digital conversion ），即A/D转换。
• 要把数字化语音通过播放设备（Speaker）传送出来的时
候，又要把数字化语音资料再转换为模拟的声音格式，
这成为数字/模拟转换(Digital-to-Analog conversion) ，即
D/A。
话音
信道
A/D
• PCM编码早期主要用于话音通信中的多路复用。一般来说，在电信网中传输媒体费用约占总成本的65%，设备费用约占成本的35%，因此提高线路利用率是一个重要课题。提高线路利用率通常用下面两种方法：
– 频分多路复用 (frequency-division multiplexing，FDM)
• 这种方法是把传输信道的频带分成好几个窄带，每个窄带传送一路信号。例如，一个信道的频带为1400 Hz，把这个信道分成4个子信道(subchannels)：820～990 Hz, 1230～1400 Hz, 1640～1810 Hz和2050～2220 Hz，相邻子信道间相距240 Hz，用于确保子信道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。
• 收音机的音质换算成每秒的资料量是：176,400bits – 采样率：22,050Hz – 单声道(Mono) – 8bits量化
• 电话音质换算成每秒的资料量是：88,200bits – 采样率：11,025Hz – 单声道(Mono) – 8bits量化
• 采样量化越少，音质越差，资料量越小。換句話說，從声音文件的资料量就可以大略看出声音品质的好坏程度。
• 汉字还存在简繁体转化的问题，目前还没有统一的标准；
前端语法分析
• 前端语法分析包含了多个处理模块，这些模块将使用前端的词典和外部规则等资源对输入的文本信息进行如下分析和处理：
– 分句和分词处理； – 特殊符号和数字处理； – 人名地名和多音字的识别处理； – 语法层次处理等；
– 线性PCM、aLaw，uLaw，ADPCM，MP3等语音压缩编码算法；
– 8K，16K，11K，6K等采样率； – 8bits，16bits 等量化比特数； – 不同的编码格式会极大的影响声音的质量和语音
数据的大小；
• 语音数据有多种存储格式：
– pcm、Microsoft wav、Dialogic vox等语音文件格式；
• 输入：电子化的文本信息
• 输出：模拟人发音的数字语音数据
• 过程：语音合成系统
ASR 语音识别
TTS 语音合成
合成系统基本模块
输入：文本信息
• 文本信息有多种存贮格式
– TXT 无格式信息的纯文本 – HTML、XML、DOC、PDF等带格式信息的文本
• 中文文本信息有多种字符编码格式－字符集
语音编码
• 为了减少语音的存储量和传输的时间，人们研究出语音编码的方法，比较常见的有：
– PCM (Pulse code modulation) – ADPCM (Adaptive Differential delta pulse
modulation)
PCM：脉冲编码调制
• 脉冲编码调制(pulse code modulation，PCM)是概念上最简单、理论上最完善的编码系统，是最早研制成功、使用最为广泛的编码系统，但也是数据量最大的编码系统。
• 30路制（E1）的重要参数如下：
– 每秒钟传送8000帧，每帧125 m s。 – 16帧组成1复帧(用于同步)。 – 每帧由32个时间片(信道)组成。 – 每个信道每次传送8位代码。 – 数据传输率：R＝8000×32×8＝2048 kb/s。 – 每一个话路的数据传输率＝8000×8=64 kb/s。
声音文件头
• 不同格式的声音数据文件，文件头格式不同 • MS 线性PCM wav文件的文件头为44个字节 • MS aLaw/uLaw wav文件的文件头为58个字节 • Dialogic vox文件没有文件头 • 合成系统提供参数设置输出标准的声音文件头或
者是不输出声音文件头 • 在进行语音数据拼接时，需要考虑删除多余的文
声音文件的大小与质量
• 不同的采样量化程度会导致不同的声音质量，我们常见的声音质量高低程度有： CD音质、收音机音质、电话音质等。不同的音质带来的码流量和资料大小也是大不一样的
• CD音质换算成成每秒的资料量是：1,411,200 bits – 采样率：44,100Hz – 立体声(Stereo) – 16bits量化
件头，并且正确设置文件头中的信息
合成声音文件播放
• 合成声音文件无法播放
– 数据格式不对 – 数据头不对
• 声音文件播放中有杂音
– 数据头设置不正确
• 声音文件播放时变成男声
– 采样率设置不对
不同编码格式比较
• 语音效果：
– 16K > 11K > 8K > 6K； – 电话信道，常用8K和6K采样率的语音数据； – (16bits) > (aLaw) > (vox)> (8bits) ;
比例，包含50个汉字信息的16K 16bits 线性PCM 格式的语音数据将达到400KB，即汉字数据量与语音数据量的比将达到1:4000 – 即使对于8K vox格式的声音数据，比率也会达到 1:500
语音合成技术简介
• 语音合成是人机语音通讯的关键技术，实现了计算机“说话”的功能；
• 语音合成，简称TTS（Text-to-Speech）
• PCM的编码原理比较直观和简单，原理框图如下图。它的输入是模拟声音信号，输出是PCM样本。 “防失真滤波器”是一个低通滤波器，用来滤除声音频带以外的信号；“波形编码器”可暂时理解为“采样器”，“量化器”可理解为“量化阶大小(step-size)”生成器或者称为 “量化间隔”生成器。
PCM在通信中的应用
PCM在通信中的应用
– 时分多路复用(time-division multiplexing，TDM)
• 这种方法是把传输信道按时间来分割，为每个用户指定一个时间间隔，每个间隔里传输信号的一部分，这样就可以使许多用户同时使用一条传输线路。这是数字通信的主要手段。例如，话音信号的采样频率f＝8000 Hz，它的采样周期＝125 m s，这个时间称为1帧 (frame)。在这个时间里可容纳的话路数有两种规格：24路制和30路制。
• 说话人辨别（ Speaker Recognition ）
• 其它
（ Speech Analysis ）
（ Speech Manipulation ）
（ Language Identification ）
（ …… ）
语音：人与人的沟通界面
语音的产生
语音的产生与语音信号
• 肺中的空气受到挤压形成气流，气流通过声门（声带）沿着声道（由咽、喉、口腔等组成）释放出去，就形成了语音。
语音基础知识和合成系统原理
与时俱进，技术服务应用
内容提要
语音与语言基本概念语音处理的相关技术语音技术的回顾和发展语音合成技术原理
语音与语言
• 语言（Language）
– 人与人之间的沟通（信息传递与交换）工具 – 语言的组成
• 音节：Phoneme） • 构词： Word formation • 语法：Grammar • 文字：Text (Option)
A律与u律
• 在非线性量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一种称为u 律压扩(companding)算法，另一种称为A律压扩算法。
• u律(m -Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。
• A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中。
编码
编码
信道
话音
信道
D/A
译码
译码
采样与量化
采样与量化
• 声音的采样与量化
采样
量化
采样率(Sampling Frequency Rate)
• 在某些特定的时刻对这种模拟信号进行测量叫做采样sampling • 指一秒之中对语音(波形)做记录的次數。Hz是「次/每秒」或
「每秒几次」这样的单位，K是1000，所以8KHz其实就是 8000Hz，也就是每秒种采样8000次的意思~16KHz之间)，根据研究，声音播出时的品质常常只能達到采样频率的一半，因此通常采用双倍频率才能将原音准确重現。所以高品质的采样应为其两倍以上，因此我们以44.1KHz的采样率作为CD音乐采样率的标准，以达到和原始声音逼近的效果。若以语音为主，由于人说话的语音大约为10KHz，因此只取22KHz即可。
• 声音是一种波，话音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。在时间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个，在幅度上“连续”是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。
语音数字化
• 数字化语音所记录与传输的都是数字形式的信号和编码，对于模拟语音需要转换为数字符号，这成为模拟/数
– GB2312、GBK、Big5、Unicode等
• 为了简化处理，一般合成系统的输入都是纯文本或者标记文本（如TCCM，CSSML标记文本）
字符集常识
• ASCII码等单字节编码方式只能表示256个字符； • 汉字编码一般采用多字节编码方式，国际上存在
多种标准；
– GB2312，1-2字节，7445 汉字和符号； – GBK，1-2字节，21886汉字和符号； – Big5，1-2字节，13500汉字和符号； – Unicode，2字节，27713汉字和符号；
• 语音数据大小：
– 16K > 11K > 8K > 6K而且与采样率成正比； – 1×(16bits) = 2×(8bits) = 2×(aLaw) = 4×(vox)；
语音与文本数据量的关系
• 语音数据量要远远大于文本的数据量
– 语音数据量的多少与采用的语音数据格式有关 – 按照一般人说话的速度是每秒钟4汉字，按这样的