多媒体技术PPT-第三章多媒体数据压缩(2)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7
授课内容
第一部分 多媒体的计算
第一章 多媒体计算机系统 第二章 媒体处理技术 第三章 多媒体数据压缩
第四章 多媒体数据的数字存储 第五章 多媒体信息分析与处理 第六章 实时多媒体通信
第二部分 多媒体的存储
第三部分 多媒体信息的分析与处理
wk.baidu.com
第四部分 多媒体网络应用
8
第三章 多媒体数据压缩
27
3bit量化过程中量化误差示意
111 110
Digital Output
101 100 011 010 001 000 Analog Input
DV
0 Quantization Error
± 0 .5 D V
28
量化噪声
e(t ) m t c
DV m T
DV c2
DV DV e(t ) tT 2
人们在描述声音信号的时候 采用了这样两种思想,同样 在音频编码方面也存在类似 的两种思想 21
第三章 多媒体数据压缩
§3.1 无损数据压缩 §3.2 音频数据的压缩标准
§3.2.1 话音编码基础 §3.2.2 三种话音编码器
波形编译码器 音源编译码器 混合编译码器
§3.2.3 MPEG Audio §3.2.4 移动通信网中的音频编码
§3.1 无损数据压缩 §3.2 音频数据的压缩标准
§3.2.1 §3.2.2 §3.2.3 §3.2.4
话音编码基础 三种话音编码器 MPEG Audio 移动通信网中的音频编码
§3.3 图像数据的压缩标准 §3.4 视频数据的压缩标准
9
音频信号处理
应用范围
无线电广播、电话、电视信号中的声音 移动通信、卫星通信、音频文件
§3.3 图像数据的压缩标准 §3.4 视频数据的压缩标准
22
话音编译码器的分类
波形编码:不利用声音的任何知识,数据率较 高,实现简单 音源编码:从声音的波形中提取生成话音的参 数,数据率可以很低,实现复杂 混合编码:以上两种思想的结合
教材p25
23
波形编译码器
波形编译码的想法
34
增量调制(△M)
△调制(Delta Modulation,DM)是PCM编码 的一种变形。PCM是对每个采样信号的 整个幅度进行量化编码,因此它具有对 任意波形进行编码的能力;DM是对实际 的采样信号与预测的采样信号之差的极 性进行编码,将极性变成“0”和“1”这 两种可能的取值之一。由于DM编码只须 用1位对话音信号进行编码,所以DM编 码系统又称为“1位系统”。 35
15
基音之间的相关举例
16
(5)静止系数
两个人之间打电话,平均每人的讲话时间为通话 总时间的一半,另一半时间听对方讲。听的时候 一般不讲话,而即使是在讲话的时候,也会出现 字、词、句之间的停顿。通过分析表明,话音间 隙使得全双工话路的典型效率约为通话时间的40 %(或静止系数为0.6)。显然,话音间隔本身就 是一种冗余,若能正确检测出该静止段,便可 “插空”传输更多的信息。
男声“Every salt breeze comes from the sea”
17
(6)长时自相关函数
上述样本、周期间的一些相关性,都是在 20ms时间的间隔内进行统计的所谓短时自 相关。如果在较长的时间间隔(比如几十 秒)进行统计,便得到长时自相关函数。 长时统计表明,8kHz的取样语音的相邻样 本间,平均相关系数高达0.9。 SRD---short Range dependent LRD---long Range dependent
第一类:用指针替换重复出现过的信息 从输入的数据中创建一个“短语词典” 80315084180
4
算术编码
词典编码
Review
RLE编码
求霍夫曼编码压缩比
1 0.9 0.8 0.7 0.6
频度
0.5 0.4 0.3 0.2 0.1 0 50 100 150 200 250
灰度级
5
Huffman讨论
42
题外话:自适应的过程
自适应:根据输入信息: 吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮
自动找出重复出现的词或短语
43
再讲讲“自适应”
1、10M/100M自适应网卡 2、自适应软件开发?? 3、“这一新成绩是与编辑部采用自我激励、 约束和管理的自适应工作模式分不开的” 4、“一是倾听客户呼声,二是全心全意不 断学习,这些理念都包含在一种新的商业 模式中,那就是自适应销售”
13
(3)周期之间的相关
当声音中只存在少数几个频率时,就会像某些振 荡波形一样,在周期与周期之间,存在着一定的 相关性。利用语音周期之间信息冗余度的编码器, 比仅仅只利用邻近样本间的相关性的编码器效果 要好,但要复杂得多。
14
(4)基音之间的相关
第一类称为浊音 (voiced sound), 一种准周期脉冲激励 所发出的音。浊音表 现在音节上有高度的 周期性,其值在220ms之间,这个周期 性称为长期周期性。 第二类称为清音 (unvoiced sound), 由不稳定气流激励所 产生的,这种气流是 在声门处打开状态下 强制空气在声道里高 速收缩产生的。 第三类称为爆破音 (plosive sound),它 是在声道关闭之后产 生的压缩空气然后打 开声道所发出的音。
自适应是和交互 性紧密关联的
44
差分脉冲编码调制 (DPCM)
根据过去的样本去估算(estimate) 下一个样本信号的幅度大小, 这个值称为预测值,然后对实 际信号值与预测值之差进行量 化编码,从而就减少了表示每 个样本信号的位数。 45
怎样做预测
根据摩尔定律预测芯片发展 利用概率模型预测不及格学生人数 利用遥感技术预测农业产量 2025年中国老年人比例预测 K线图的走势分析 我看这学期你
19
语音特有的短时功率谱密度
Review
用比特串表示的声音
用一个“阶梯化”的波形尽可能精确地去 模拟一个真实的声音波形(采样频率、样 本精度) 用一系列基本信号尽可能逼真地合成一个 模拟世界的声音
20
Review
殊途同归
思路一:针对现有的信号波形,将实际波 形进行数字化的纪录 思路二:针对波形信号的特性,尽量从数 学角度寻求一个统一的描述方法
Source: http://en.wikipedia.org/wiki/Image:Ulaw_alaw.png
33
选作作业
采用滤波的方法能否滤出量化噪声?为什 么? 某信号幅度介于[-5V, 5V](动态范围是 10V),要求 NoiseRMS 小于5mV,计算需 要的量化精度(即bit数)
多媒体技术
第三章 多媒体数据压缩 §3.2 音频数据的压缩标准
上节内容回顾:编码(1/3)
二维条码:牛眼码
含RFID标签的上海世博会门票
2
上节内容回顾:压缩(2/3)
3
上节内容回顾:无损编码(3/3)
霍夫曼编码
出现次数最多的符号用最短的编码 出现次数最少的符号用最长的编码 消息用0到1之间的实数进行编码
2
N -1
Signal RMS
DV 2
NoiseRMS
DV 2 12
Signal 2 N -1 DV 12 RMS SQNR 1.5 2 N NoiseRMS DV 2
SQNRdB (6.02N 1.76)dB
注意:Signal幅度充满整个区间
bits 4 8 12 16
39
SACD(Super Audio CD)
DSD
40
―绝对” vs. ―相对”
绝对数值和相对数值均可以表示信息,根 据需要可以择其一 绝对和相对的互相转换 表示文件位置的绝对路径与相对路径 电脑屏幕上的绝对坐标与相对坐标
41
自适应脉冲编码调制 (APCM)
前向自适应
后向自适应
自适应脉冲编码调制 (Adaptive Pulse Code Modulation,APCM)是 根据输入信号幅度大小 来改变量化阶大小的一 种波形编码技术。
36
CFDM调整量化阶的过程
37
例:DM与ADM的量化噪声
输入的模拟信号是两个正弦信号的叠加, 频率分别为:100 Hz和300 Hz。ADM采用 两次交叠法,k=1.1, △初值=0.125
38
PCM vs. △M
对于音频信号哪种更好? 各自怎样保证失真较小?
CD
PCM(16bit/44.1kHz) △M(1bit/2.8224MHz)
自适应增量调制
思路:自动调整量化阶△的大小;在检测 到斜率过载的时候增大△,在输入信号斜 率减小时降低△ CFDM(Constant Factor Adaptive DM)
根据量化器符号的判断当前区域是斜率过载 还是颗粒噪声,进而改变△ 如果连续出现三个相同值△加大,反之减小
CVSD(Continuously Variable Slope DM)
不利用生成话音信号的知识产生而是产生一种 重构信号,重构信号的波形和原始话音波形尽 可能一致,这种编译码器的复杂程度低。 PCM(脉冲编码调制)
波形编码代表
24
Review
声卡的工作原理
采样
量化
编码
25
脉冲编码调制(PCM)
26
量化误差的概念
一道简单的概率计算题:某仪器表盘的刻 度单位是0.2,读取刻度时选取偏差最小的 刻度。请计算利用该仪器读取测量数值的 误差小于0.04的概率是多大?误差大于 0.05的概率是多大?
18
频域信息的冗余度
非均匀的长时功率谱密度
在相当长的时间间隔内进行统计平均,可得到长时功率 谱密度函数,其功率谱呈现强的非平坦性。从统计的观 点看,这意味着没有充分利用给定的频段,或者说有着 固有的冗余度。特别地,功率谱的高频能量较低,这恰 好对应于时域上相邻样本间的相关性。
语音信号的短时功率谱,在某些频率上出现峰值,而在 另一些频率上出现谷值。这些峰值频率,也就是能量较 大的频率,通常称为共振峰频率。此频率不止一个,最 主要的是第一和第二个,由它们决定了不同的语音特征。 另外,整个谱也是随频率的增加而递减。更重要的是, 整个功率谱的细节以基音频率为基础,形成了高次谐波 结构。这都与电视信号类似,仅有的差异在于直流分量 较小。
频域信息的冗余度
人的听觉感知机理
11
(1)幅度的非均匀分布
统计表明,语音中的小幅度样本比大幅度 样本出现的概率要高。又由于通话中必然 会有间隙,更出现了大量的低电平样本。 此外,实际讲话信号功率电平也趋向于出 现在编码范围的较低电平端。因此,语音 信号取样值的幅度分布是非均匀的。
12
(2)样本间的相关
编码结果为: 0 100 101 110 111
0100100110101111 BDDACE 1100100110101111 ABDACE
6
RLE讨论
WWWWWWWBWWWWWWWWWW WBBB 7W1B11W3B WBWBWBWBWBWBWB 1W1B1W1B1W1B1W1B1W1B1W1B1W1 B
Analog signals Digital signals 如家用音响的Hi-Fi功放 AV功放
趋势
10
音频信号的冗余
时域信息的冗余度
幅度的非均匀分布、样本间的相关 、周期之 间的相关、基音之间的相关 、静音系数 、长 时自相关函数
非均匀的长时功率谱密度 语音特有的短时功率谱密度
SNR 25.8dB 49.9dB 74.0dB 98.1dB
30
脉冲编码调制(PCM)的量化方式
μ 律(μ-Law)压扩(G.711)主要用在北美和日本等 A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等
31
μ-Law & A-Law
A-Law
μ-Law
32
μ-Law vs. A-Law
2
e(t)
0.5DV
DV DV 2 e(t ) t 2 T DV 2t 2 DV 2t DV 2 2 T T 4
t T
1 T RMS e(t ) 2 dt T 0
- 0 . 5D V
NoiseRMS
DV 2 12 29
SNR
假定信号为正弦波形 2 N -1 DV sin t
对语音波形的分析表明,取样数据的最大 相关性存在于邻近样本之间。当取样频率 为8kHz时,相邻取样值间的相关系数大于 0.85;甚至在相距10个样本之间,还可有 0.3左右的数量级。如果取样速率提高, 样本间的相关性将更强。因而根据这种较 强的一维相关性,利用N阶差分编码技术, 可以进行有效的数据压缩。