语音信号处理期末复习讲解

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

30 40 Samples
50
60
Amplitude (dB) Magnitude
Amplitude
0
0.6 0.8 10 0.2 20 0.430 40 50 Normalized Frequency Samples( rad/sample)
60
直角窗
海明窗
频域对比(注意纵坐标不同)
Frequency domain Time domain 40
3.3短时能量分析
短时能量定义
• 短时:通过加窗来实现 • 能量:通过求信号幅度的平方来实现
En
m
[ x(m)w(n m)]

2

m n N 1

n
[ x(m)w(n m)]
2
• 窗的位置随n变化
窗的类型
• 直角窗(矩形窗)
Time domain 40 1 30 0.8 20 10 0 -10 -20
MOS得分 5 4 3 2 1 质量等级 优 良 可 差 坏 失真级别 不觉察 刚有觉察 有觉察且稍有可厌 明显觉察且可厌但可忍受 不可忍受
第三章 语音信号的 时域分析
语音信号的稳态——帧的概念
• 语音自身从长时间看是非稳态过程,从短时 间看是相对稳定的,既“短时性”。 • 将语音分为一段一段的,每一段称为“一 帧”,大概时间为10-30ms • 短时时域分析是语音处理的基本方法,也是 最直观、最易理解的方法
Frequency domain 40 20 0
1
30
0.8
Magnitude (dB)
Magnitude (dB)
0 10 0.2 0.4 20 30 400.6 50 0.8 60 Normalized Frequency Samples ( rad/sample)
20 10 0
Amplitude
考试时间和地点
• 12月26日(周四) • 14:00-15:40 • 地点:4-202
复 习 课
第一章 绪论
一些语音处理的应用领域
• • • • • 语音压缩 语音合成 语音识别 说话人识别 ……
什么是语音
• 语音是人类发音器官发出的、具有一定意义的、 能起社会交际作用的声音。 • 能够代表一定的意义,这是语言的声音同自然 界其他一切声音的本质区别。 • 自然的风声、水声、动物叫声 (不来自人体发音器官,无明确意义) • 吹口哨,打鼾,口技 (来自发音器官,但五明确意义,不能交际)
什么是语音处理
• 语音信号处理简称语音处理,是以语音学和 数字信号处理为基础而形成的一门综合性学 科。 • 处理的目的是要得到一些语音参数以便高效 地传输或存储,或者通过处理的某种运算以 达到某种用途的要求,例如人工合成出语音, 辨识出说话者,识别讲话的内容等。 • 它包括语音编码、语音合成、语音识别和说 话人识别四大分支。(下面简单介绍)
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
时域比较
Time domain 40 1 Frequency domain Time domain
1 30 0.8 20 0.6 10 0.4 0 0.2 -10
-20 0
0.8
0.6
0.4
0.2
0
10
20
语音的物理属性
• 物理声学认为声波具有 • 响度 • 音调 • 音色
• 三种要素。
第二章 语音信号处理 的基础知识
语音构成
• 音素是语音的最小构成单位 • 根据声带是否振动,音素可以分为浊音和清音
• 浊音 • • 由声带振动产生的音为浊音 • • 包括所有原音和一些辅音 • 清音 不由声带振动产生的音 为清音 包括另一部分辅音
人体发声的部位
声带——震动的来源
Tp
典型声门脉冲波形
• Tp为基音周期,倒数为基音频率,用fp表示, 取决于声带的尺寸和特性 • 男性说话者的fp大致分布在60-200Hz范围内 • 女性说话者和小孩的fp值在200-450Hz范围内 • 同一个人所发出的声音有高低变化,是靠控 制声带的松紧来调节的。
0.6
-20 -40 -60
0.4
0.2 -10 0 -20
-80 -100
0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
直角窗
海明窗
短时平均幅度Mn
• En需要将信号求平方,大信号急剧变大,要 求动态范围大 • Mn只是取绝对值,不需增加额外的动态范围
3.5 短时相关分析
3.5.1 短时自相关函数
• 自相关函数
R( k )
m
x(m) x(m k )

Байду номын сангаас
• 短时自相关函数
Rn (k ) Rn (k )
m
1, w(n) 0,
0 n N 1 其他
Frequency domain
0.6
0.4
0.2
0
10
20
30 40 Samples
50
60
Magnitude (dB)
Amplitude
0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
2.4语音信号的数字模型(重点)
• 语音信号的产生模型(p7,图2-3)
Av 周期脉冲 发生器 声门脉冲 模型 声道模 型参数 声道 模型 语音 信号
Au 随机噪声 发生器
辐射模型
• • • •
激励模型 声管模型 共振峰模型 辐射模型
声门的模型 声道的模型
口唇的模型
平均意见得分(MOS)
MOS得分采用5级评分标准
窗的类型
• 海明窗(Hamming,也称汉明窗,升余弦)
Time domain 40 1 20 0.8 0
Frequency domain
Magnitude (dB)
10 20 30 40 Samples 50 60
Amplitude
0.6
-20 -40 -60
0.4
0.2
-80 -100
0
0
0.2
Mn
m


x(m) w(n m) x(n) * w(n)
x ( n)
x ( n)
w(n)
Mn
• 其功能与能量是一样的,区分清、浊音等
3.4短时过零分析
过零率
• 短时过零分析:过零率就是每秒内信号值通 过零值的次数,短时过零就是指在一段时间 内(一帧内)平均的过零率。
• 对于窄带信号,是很好的统计其频率特性的 参数 • 最典型的是正弦波(单一频率)
相关文档
最新文档