语音基础知识和合成原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
均匀量化与非均匀量化
• 如果采用相等的量化间隔对采样得到的信号作量 化,那么这种量化称为均匀量化。均匀量化就是 采用相同的“等分尺”来度量采样得到的幅度,也 称为线性量化
均匀量化与非均匀量化
• 非均匀量化,又叫非线性量化,基本想法是,对输入信 号进行量化时,大的输入信号采用大的量化间隔,小的 输入信号采用小的量化间隔
• 语音(Speech)
– 带有语言信息的声音
• 语音处理(Speech processing)
– 以工程技术处理语音信号
语音处理的相关技术
• 语音编码 (Speech Coding)
• 语音增强 (Speech Enhancement)
• 语音合成 (Speech Synthesis)
• 语音识别 ( Speech Recognition )
语音技术示意图
Speech Coding
Speech and Enhancement Speech
Speech Recognitio
n
Text
Language /Translation /technology
Text to Speech
Text
Meaning Understanding
语音数据
• 语音数据有多种编码格式:
采样率
量化
• 在采样的过程中,不断连续变化的波形信号要用数字來表 示,这样的过程不可避免的将引入误差(Quantization error),这种量化误差是实际语音信号的振幅和语音数字化 之间的差异。如果再把数字化的语音还原为模拟声音,量化 误差就会表现为失真(Distortion)。
• 我们可以用增加量化大小的方式來降低量化误差,提高精 度,也就是利用更多位数的数字(bits)來表示一个采样信号, 这样就可以提高精确度,最大程度地保持原先声波的形狀, 约接近声波原形则所需解析度约高。若以8位数字來记录采 样,則其所能表达的组合种类是2的8次方,即256,表示用8 位数字的采样大小能分辨出256个层次的声音;若采用16位 数字來量化,則能分辨的差异將高达2的16次方,为65536, 其精确度当然大大提高,音量起伏的大小变化就能够更精细 地被记录下来。这样失真就会更小,就更接近原始的声音表 现。
字转换( Analog-to-Digital conversion ),即A/D转换。
• 要把数字化语音通过播放设备(Speaker)传送出来的时
候,又要把数字化语音资料再转换为模拟的声音格式,
这成为数字/模拟转换(Digital-to-Analog conversion) ,即
D/A。
话音
信道
A/D
• PCM编码早期主要用于话音通信中的多路复用。一般来说, 在电信网中传输媒体费用约占总成本的65%,设备费用约占 成本的35%,因此提高线路利用率是一个重要课题。提高线 路利用率通常用下面两种方法:
– 频分多路复用 (frequency-division multiplexing,FDM)
• 这种方法是把传输信道的频带分成好几个窄带,每个窄带传送一 路信号。例如,一个信道的频带为1400 Hz,把这个信道分成4个 子信道(subchannels):820~990 Hz, 1230~1400 Hz, 1640~1810 Hz和2050~2220 Hz,相邻子信道间相距240 Hz,用于确保子信 道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模 拟载波通信的主要手段。
• 收音机的音质换算成每秒的资料量是:176,400bits – 采样率:22,050Hz – 单声道(Mono) – 8bits量化
• 电话音质换算成每秒的资料量是:88,200bits – 采样率:11,025Hz – 单声道(Mono) – 8bits量化
• 采样量化越少,音质越差,资料量越小。換句話說,從声音文件的资料量就可以 大略看出声音品质的好坏程度。
• 汉字还存在简繁体转化的问题,目前还没有统一 的标准;
前端语法分析
• 前端语法分析包含了多个处理模块,这些模块将 使用前端的词典和外部规则等资源对输入的文本 信息进行如下分析和处理:
– 分句和分词处理; – 特殊符号和数字处理; – 人名地名和多音字的识别处理; – 语法层次处理等;
– 线性PCM、aLaw,uLaw,ADPCM,MP3等语音压缩编 码算法;
– 8K,16K,11K,6K等采样率; – 8bits,16bits 等量化比特数; – 不同的编码格式会极大的影响声音的质量和语音
数据的大小;
• 语音数据有多种存储格式:
– pcm、Microsoft wav、Dialogic vox等语音文件 格式;
• 输入:电子化的文本信息
• 输出:模拟人发音的数字语音数据
• 过程:语音合成系统
ASR 语音识别
TTS 语音合成
合成系统基本模块
输入:文本信息
• 文本信息有多种存贮格式
– TXT 无格式信息的纯文本 – HTML、XML、DOC、PDF等带格式信息的文本
• 中文文本信息有多种字符编码格式-字符集
语音编码
• 为了减少语音的存储量和传输的时间,人们研究 出语音编码的方法,比较常见的有:
– PCM (Pulse code modulation) – ADPCM (Adaptive Differential delta pulse
modulation)
PCM:脉冲编码调制
• 脉冲编码调制(pulse code modulation,PCM)是概念上最简单、理论 上最完善的编码系统,是最早研制成功、使用最为广泛的编码系 统,但也是数据量最大的编码系统。
• 30路制(E1)的重要参数如下:
– 每秒钟传送8000帧,每帧125 m s。 – 16帧组成1复帧(用于同步)。 – 每帧由32个时间片(信道)组成。 – 每个信道每次传送8位代码。 – 数据传输率:R=8000×32×8=2048 kb/s。 – 每一个话路的数据传输率=8000×8=64 kb/s。
声音文件头
• 不同格式的声音数据文件,文件头格式不同 • MS 线性PCM wav文件的文件头为44个字节 • MS aLaw/uLaw wav文件的文件头为58个字节 • Dialogic vox文件没有文件头 • 合成系统提供参数设置输出标准的声音文件头或
者是不输出声音文件头 • 在进行语音数据拼接时,需要考虑删除多余的文
声音文件的大小与质量
• 不同的采样量化程度会导致不同的声音质量,我们常见的声音质量高低程度有: CD音质、收音机音质、电话音质等。不同的音质带来的码流量和资料大小也是 大不一样的
• CD音质换算成成每秒的资料量是:1,411,200 bits – 采样率:44,100Hz – 立体声(Stereo) – 16bits量化
件头,并且正确设置文件头中的信息
合成声音文件播放
• 合成声音文件无法播放
– 数据格式不对 – 数据头不对
• 声音文件播放中有杂音
– 数据头设置不正确
• 声音文件播放时变成男声
– 采样率设置不对
不同编码格式比较
• 语音效果:
– 16K > 11K > 8K > 6K; – 电话信道,常用8K和6K采样率的语音数据; – (16bits) > (aLaw) > (vox)> (8bits) ;
比例,包含50个汉字信息的16K 16bits 线性PCM 格式的语音数据将达到400KB,即汉字数据量与 语音数据量的比将达到1:4000 – 即使对于8K vox格式的声音数据,比率也会达到 1:500
语音合成技术简介
• 语音合成是人机语音通讯的关键技术,实现了计算机“说 话”的功能;
• 语音合成,简称TTS(Text-to-Speech)
• PCM的编码原理比较直观和简单,原理框图如下图。它的输入是模 拟声音信号,输出是PCM样本。 “防失真滤波器”是一个低通滤波 器,用来滤除声音频带以外的信号;“波形编码器”可暂时理解为“采 样器”,“量化器”可理解为“量化阶大小(step-size)”生成器或者称为 “量化间隔”生成器。
PCM在通信中的应用
PCM在通信中的应用
– 时分多路复用(time-division multiplexing,TDM)
• 这种方法是把传输信道按时间来分割,为每个用户指定一个时间间 隔,每个间隔里传输信号的一部分,这样就可以使许多用户同时使 用一条传输线路。这是数字通信的主要手段。例如,话音信号的采 样频率f=8000 Hz,它的采样周期=125 m s,这个时间称为1帧 (frame)。在这个时间里可容纳的话路数有两种规格:24路制和30路 制。
• 说话人辨别 ( Speaker Recognition )
• 其它
( Speech Analysis )
( Speech Manipulation )
( Language Identification )
( …… )
语音:人与人的沟通界面
语音的产生
语音的产生与语音信号
• 肺中的空气受到挤压形成气流,气流通过声门(声带) 沿着声道(由咽、喉、口腔等组成)释放出去,就形成 了语音。
语音基础知识和合成 系统原理
与时俱进,技术服务应用
内容提要
语音与语言基本概念 语音处理的相关技术 语音技术的回顾和发展 语音合成技术原理
语音与语言
• 语言(Language)
– 人与人之间的沟通(信息传递与交换)工具 – 语言的组成
• 音节:Phoneme) • 构词: Word formation • 语法:Grammar • 文字:Text (Option)
A律与u律
• 在非线性量化中,采样输入信号幅度和量化输出 数据之间定义了两种对应关系,一种称为u 律压 扩(companding)算法,另一种称为A律压扩算 法。
• u律(m -Law)压扩(G.711)主要用在北美和日本等 地区的数字电话通信中 。
• A律(A-Law)压扩(G.711)主要用在欧洲和中国大 陆等地区的数字电话通信中。
编码
编码
信道
话音
信道
D/A
译码
译码
采样与量化
采样与量化
• 声音的采样与量化
采样
量化
采样率(Sampling Frequency Rate)
• 在某些特定的时刻对这种模拟信号进行测量叫做采样sampling • 指一秒之中对语音(波形)做记录的次數。Hz是「次/每秒」或
「每秒几次」这样的单位,K是1000,所以8KHz其实就是 8000Hz,也就是每秒种采样8000次的意思~16KHz之间),根据研究,声音播出时的品质常常只能達 到采样频率的一半,因此通常采用双倍频率才能将原音准确重 現。所以高品质的采样应为其两倍以上,因此我们以44.1KHz的 采样率作为CD音乐采样率的标准,以达到和原始声音逼近的效 果。若以语音为主,由于人说话的语音大约为10KHz,因此只 取22KHz即可。
• 声音是一种波,话音信号是典型的连续信号,不仅在时 间上是连续的,而且在幅度上也是连续的。在时间上“连 续”是指在一个指定的时间范围里声音信号的幅值有无穷 多个,在幅度上“连续”是指幅度的数值有无穷多个。我 们把在时间和幅度上都是连续的信号称为模拟信号。
语音数字化
• 数字化语音所记录与传输的都是数字形式的信号和编 码,对于模拟语音需要转换为数字符号,这成为模拟/数
– GB2312、GBK、Big5、Unicode等
• 为了简化处理,一般合成系统的输入都是纯文本 或者标记文本(如TCCM,CSSML标记文本)
字符集常识
• ASCII码等单字节编码方式只能表示256个字符; • 汉字编码一般采用多字节编码方式,国际上存在
多种标准;
– GB2312,1-2字节,7445 汉字和符号; – GBK,1-2字节,21886汉字和符号; – Big5,1-2字节,13500汉字和符号; – Unicode,2字节,27713汉字和符号;
• 语音数据大小:
– 16K > 11K > 8K > 6K而且与采样率成正比; – 1×(16bits) = 2×(8bits) = 2×(aLaw) = 4×(vox);
语音与文本数据量的关系
• 语音数据量要远远大于文本的数据量
– 语音数据量的多少与采用的语音数据格式有关 – 按照一般人说话的速度是每秒钟4汉字,按这样的