语音信号处理_2_基础知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0 T im e (s )
0 .4 2 1 0 1 3
0.200 7
0
-0 .3 7 2
0 T im e (s )
0 .1 2 9 3 3 1
时域波形-samples
0.865 8 0
- 0.670 8 0 T im e (s ) 1.54 821
0.158 7
0
- 0.320 7
0 T im e (s )
元音
元音的特点
声带颤动,其波形呈准周期性变化 器官均衡地保持紧张,口腔内无明显阻碍 气流较弱
元音
元音的分类
按舌位高低、前后分;按唇形圆展分;调音器官的变化来分 单元音(10个) 舌面元音:a, i, u, ü, o, e, ê 舌尖元音:-i, -ii 卷舌元音:er 二合元音(9个) 前响: ai, ao, ou, ei, üe 后响: ia, ua, ie, uo 三合元音(4个) iao, iou, uai, uei
辅音
辅音的分类 按发音部位分类 唇音:b,p,m,f 舌尖前音:d,t,n,l,z,c,s 舌尖后音:zh,ch,sh,r 舌面前音:j,q,x, 舌根音:g,k,h,ng(鼻韵尾) 按发音方法分类 塞音:b,d,g(不送气) p,t,k(送气) 塞擦音:z,zh,j(不送气) c,ch,q(送气) 擦音:f,s,sh,x,h(清擦) r(浊擦) 边音:l 鼻音:m , n,ng(鼻韵尾) 半元音:如,i,u,ü 起头的零声母音节的起始部
声道模型
声管模型 共振峰模型
声管模型
管子串联 管子对应于四端网络 反射系数与线性预测 的参数相对应(Km对 应于线性预测的反射 系数)。
2 3 1 4
声门
k1 = A2 − A1 A2 + A1
唇
km =
Am +1 − Am Am +1 + Am
∈ ( − 1,1)
语音感知
听觉器官(声学特征)
音质、音强、音高、音长
感知效应
感知效应
听阈 主观响度 主观音高 言语的选择性感知
感知效应
听阈
频率范围20~20kHz 声强0~120dB(0dB eq. 20uPa)
主观响度 主观音高 言语的选择性感知
主观响度
响度级(Loudness Level), Phon数值上等 于1kHz纯音的声强级 响度(Loudness), 1Sone等于1kHz纯音t听 阈之上40dB的响度 P=33.33lgS+40 3~5kHz频段最为灵敏
声调
声调(5个)
孤立音节中有四个声调,调型称之为阴平、 阳平、上声、去声,简称1、2、3、4声 连续语音中由音节弱化、致使原有调型丢失, 形成轻声 上声连读变调:上声变阳平 主要由韵母音段的音高所负载
第二章 语音信号的声学基础 及产生模型
语音学 语音产生过程 语音信号的特性分析 语音感知 语音产生数学模型
基础知识
语音学
界定 三个分支 基础知识
基本声学特征 层级结构 辅音 元音 音节结构
基本声学特征
音质 响度 音高 音长 音段特征,音质 超音段特征,音高、响度、音长
层级结构
由下而上(bottom-to-top)
音素(Phoneme):最小的发音单位 音节(Syllable):最小的节奏单位 语音词(Prosodic Word):最小的韵律组合单位 韵律短语(Prosodic Phrase):非完整语调的短语 语调短语(Intonational Phrase):具备完整语调的可独 立的短语
非线性处理过程 自下而上(数据驱动)+从上而下(知识驱动)
第二章 语音信号的声学基础 及产生模型
语音学 语音产生过程 语音信号的特性分析 语音感知 语音产生数学模型
语音产生数学模型
产生模型 激励 声道 辐射
语音产生模型
振幅Av 冲激序列 发生器 声门波 模型 声道 模型 随机噪声 发生器 振幅AN 信号辐 射模型
- 0 .670 8
0 T im e (s )
0 .3 0 1 3 1 3
0 .766 3
0
- 0 .624 5 0 T im e (s ) 0 .0 5 3 0 1 8 6
时域波形-samples
0.865 8 0
- 0.670 8 0 T im e (s ) 1.54 821
0.865 8
0
- 0.656 4
例:
九九年( 一号( 一九 九九年(BP1)十二月(BP1)三十 一号(BP2) )十二月( ) ) 一 九 九 九 年 十 二 月 三 十 一 号 yi1 jiu3 jiu2 jiu3 nian2 shi2 er4 yue4 san1 shi2 yi1 hao4
辅音
辅音的特点 口腔内有阻塞或阻碍 气流较强,特别是清辅音 器官在遇阻部分是紧张的 多数辅音为不带音的清辅音, 少数辅音为声带颤动的浊辅音
注: 分频斜率(也称滤波器的衰减斜率)用来反映分频点以下频响曲线的下降斜率, 用分贝/倍频程(dB/oct)来表示。它有一阶(6 dB/oct)、二阶(12 dB/oct)、 三阶(18 dB/oct)和四阶(24 dB/oct)之分,阶数越高,分频点后的频率曲线 斜率就越大。较常用的是二阶分频斜率。高阶分频器可增加斜率,但相移位大; 低阶分频器能产生较平缓的斜率和很好的瞬态响应,但幅频特性较差。
韵母
韵母(39个) -大部分为元音,或元音加鼻韵尾 单元音(10个) 舌面元音:a, i, u, ü, o, e, ê 舌尖元音:-i, -ii 卷舌元音:er 二合元音(9个) 前响: ai, ao, ou, ei, üe 后响: ia, ua, ie, uo 三合元音(4个)iao, iou, uai, uei 鼻韵尾(7个)an, en, in, ang, eng, ing, ong 复合鼻韵尾(9个) ian, iang, iong, uan, uen, uang, ueng, üan, üen
语音信号的特性分析
时域波形(Time-Domain Waveform) 频域特征(Frequency-Domain Feature) 语谱图(Spectrogram)
时域波形-Байду номын сангаасamples
0 .865 8 0
- 0 .670 8 0 T im e (s ) 1.54 82 1
0 .831 7
0
10 4
T im e (s )
0 0 1.54 821 T im e (s )
10 4
窄带-45Hz 窄带
0
0 T im e (s )
1.54 821
语谱图
典型特征
横杠 冲直条 乱纹
最为经典的语音分析显示手段 实现手段
Bell Lab. in 40’s, 模拟滤波器组 Kay Inc. in 80’s,基于DSP的数字滤波器组 Speech analysis tools
频域特征
直观的特征
包络 细节
频域特征-发音部位
周期性 共振峰位置 能量集中区 能量
语谱图
需求:综合显示
发音方式-时域 发音部位-频域
语谱图:语音频谱随时间变化的图形
横轴:时间 纵轴:频率 灰度:能量大小
语谱图-samples
0.865 8 0
- 0.670 8 0 1.54 821
宽带-300Hz 宽带-300Hz
source
语音产生过程
激励源(体积速度) 调节器(声道截面积)
元音
声道长度 舌的位置 共振峰(formant), F1, F2, F3, F4
filter F1 F2
F3 F4
辅音
方式: 摩擦、送气、阻塞 部位:唇、齿、舌面、舌根、鼻
语音产生过程
激励源(体积速度) 调节器(声道截面积) 辐射(差分函数)
0.312 32
0.156 4
0
- 0.175 9
0 T im e (s )
0 .0 4 4 0 2 7 5
时域波形
直观的特征
周期性 摩擦 停顿 时长 幅度
波形解释-发音方式
清/浊 摩擦 塞 送气 鼻
时域波形
直观的特征
周期性 摩擦 停顿 时长 幅度
波形解释-发音方式
清/浊 摩擦 塞 送气 鼻
显著程度 显著程度 显著程度 显著程度
激励模型
右斜类三角波的Z变换
G( z) = 1 (1 − g1 z −1 )(1 − g 2 z −1 )
G(z)
E ( z )为脉冲序列的z变换 U ( z ) = E ( z )G ( z ) 如果激励是δ (n), 则U ( z ) = G ( z ) 公式(2 − 8) Av E( z) = 有问题, 默认基音周期为1 −1 1− z
语音产生过程
发音过程 语音生成模型
语音产生过程
声带-激励源 声道-调节器 唇-辐射
语音产生过程
激励源(体积速度)
嗓音声源—脉动声门气流 噪音声源—瞬态过程、摩 擦、送气
语音产生过程
source
激励源(体积速度)
嗓音声源—脉动声门气流
线谱 基频(pitch)、音高(F0)、声调(tone) -12dB/Oct.下倾
主观音高
美(Mel)
1kHz纯音定为1000Mel 听感上为1000Mel的n倍, nx1000Mel
临界带宽(Critical Band)
相同功率的噪声对纯音的屏 蔽,噪声的频带宽度 20~16kHz,划为24个Bark
Mel与频率的关系
言语的选择性感知
“鸡尾酒会效应”
发音的改变 选择性感知
感知过程
Tp
Tn
Rosenberg声门波模型
0.5 A[(1 − cos(π ⋅ t / Tp )] (0 ≤ t < T p ) g (t ) = A cos[π (t − Tp ) / 2Tn ] (T p ≤ t < Tp + Tn ) 0 (T p + Tn ≤ t < T0 )
T0 Rosenberg声门波
一阶差分 +6dB/Oct. 增益
source
filter F1 F2
F3 F4
radiation
speech
F1 F2
F3
F4
语音产生模型
振幅Av 冲激序列 发生器 声门波 模型 声道 模型 随机噪声 发生器 振幅AN 信号辐 射模型
源-滤波-辐射模型
第二章 语音信号的声学基础 及产生模型
语音学 语音产生过程 语音信号的特性分析 语音感知 语音产生数学模型
praat, free, professional tools SFS, free, professional tools Cooledit, popular tools
第二章 语音信号的声学基础 及产生模型
语音学 语音产生过程 语音信号的特性分析 语音感知 语音产生数学模型
语音感知
听觉器官(声学特征) 感知效应
音节结构
音节=声母+韵母+声调 tang1 = t + ang1 非轻声音节1268个(新华字典)
声母
声母(21个) -全部为辅音 塞音:b,d,g(不送气) p,t,k(送气) 塞擦音:z,zh,j(不送气) c,ch,q(送气) 擦音:f,s,sh,x,h(清擦) r(浊擦) 边音:l 鼻音:m , n,ng(鼻韵尾) 半元音:如,i,u,ü 起头的零声母音节的起始部
频域特征-samples
0.865 8 0
- 0.670 8 0 T im e (s ) 1.54 821
40
20
20
0
0 0 F re q u e n c y ( H z ) 11 025
-2 0 0 F r e q u e n cy ( H z ) 110 25
40
40 20
20 0
0 0 F re q u e n c y ( H z ) 11 025 0 F r e q u e n cy ( H z ) 110 25
第二章 语音信号的声学基础 及产生模型
语音学 语音产生过程 语音信号的特性分析 语音感知 语音产生数学模型
语音学
界定 三个分支 基础知识
语音学
界定
语音学是研究人类说话声音的科学
三个分支 基础知识
语音学
界定 三个分支(发音-传递-感知)
发音语音学 也称生理语音学,研究发音器官在发音阶段的生 理特性,确定发音部位和发音方式 声学语音学 研究语音在传递阶段的声学特性,用声学和现代 信号分析理论来解释各种语音现象 感知语音学 研究语音感知阶段的生理和心理特性,也就是研 究耳朵是怎样听音的,大脑是怎样解释这些声 音的,语言信息在大脑中的存储部位和形式
源-滤波-辐射模型
激励模型
清音
随机白噪声
均值为0,方差为1的 随机序列
T0 斜三角波 Tp Tn
浊音
右斜类三角波
斜三角波模型
A ⋅ t / Tp (0 ≤ t < T p ) g (t ) = A ⋅ (Tp + Tn − t ) / Tn (T p ≤ t < Tp + Tn ) 0 (T p + Tn ≤ t < T0 )