多媒体通信multimediacommunications

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1877年，爱迪生的留声机录下了他朗读的《玛丽有只小羊》：“玛丽抱着羊羔，羊羔的毛象雪一样白”，这总共8秒钟的声音成为世界录音史上的第一声。【将声波变换成金属针的震动，然后将波形刻录在圆筒形腊管的锡箔上。当针再一次沿着刻录的轨迹行进时，便可重新发出留下的声音。】
数字化
Philips, 1978 数码音频唱片，从此CD风靡全世界
话音
2.2.4 移动通信网中的音频编码
2.4 静态图像压缩编码的国际标准
2.5 视频压缩的国际标准
2.6 可伸缩性编码和分布式编码
2
{ynh,cxh}@
话音产生的数字模型
Excitation
周期
Review Filter
周期脉冲序列发生器
声道参数
浊/清选择
伪随机噪声产生器
The 1982 introduction of the CD popularized digital audio with consumers.
1999 - Portable MP3 players appear.
/aeshc/pdf/fine_dawn-of-digital.pdf
/sfuad/musi3012-01/html/lectures/010_hearing_V.htm
Psychoacoustically, the ability to discriminate between sounds that are nearly is measured as a 'difference limen' (DL), or 'just noticeable difference' (JND).
人们对半速率语音的感觉普遍不佳，所以今天一般不采用此项技术。但以其自适应模式，AMR声码器的 6种较低速率将适合半速率空中信道的可用容量，结果是采用带AMR的半速率信道将在高流量领域变得更为普遍。
10
{ynh,cxh}@
速率小结
Codec
Rate (kHz) Bitrate (kbps) Delay (ms)
Adaptive Multi-Rate Wideband (AMR-WB)
9
{ynh,cxh}@
半速率
GSM所采用的空中接口允许使用两个完全独立的半速率子信道，故能使蜂窝单元的语音容量加倍。
半速率声码器采用矢量和激励线性预测 VSELP(Vector Sum Exited Linear Prediction)编码器，它以一种类似EFR及AMR编解码器的分析加合成方式工作，速率为5.7kbps。
16
{ynh,cxh}@
Technical Details of Lossy Audio
Compression Formats
Review
/wiki/Comparison_of_aud1io7 _c odecs
{ynh,cxh}@
MP3，1991年由位于德国埃尔朗根的研究组织 Fraunhofer-Gesellschaft发明和标准化
13
{ynh,cxh}@
History of digital audio
Review Digital Pulse-Code Modulation was invented at Bell Labs in the 1930s and first used as a telephony technology.
AMR-NB
8
4.75-12.2
20
AMR-WB
16
(G.722.2)
6.6-23.85
20
G.729
8
8
15
GSM-FR
8
13
20
GSM-EFR
8
12.2
20
G.723.1
8
5.3 6.3
37.5
G.728
8
16
0.625
G.711 (µ/A-law) 8
64
G.72216来自48 56 6411
{ynh,cxh}@
AMR utilizes Discontinuous Transmission (DTX), with
Voice Activity Detection (VAD) and Comfort Noise
Generation (CNG) to reduce bandwidth usage during
silence periods.
数据压缩编码的两大类
无损压缩有损压缩
Review
Lossy Audio Compression
Lossless Audio Compression
注意：处理对象是PCM音频样本数据。只要解压缩时候能恢复出PCM样本即视为无损压缩。可以把PCM样本序列直接当做数据进行无损压缩，也可以根据相邻样本的相关性进行压缩。
上节内容回顾
回顾1：音频处理与音频压缩回顾2：从压缩方法分类看有损音频/无损音频回顾3：从编译码器原理看音频压缩回顾4：从应用场景看话音/音频
12
{ynh,cxh}@
回顾1：音频处理与音频压缩
声音记录的历史：机械磁光半导体？
1935年，德国通用电气公司制成了磁带录音机，并在第二次世界大战中用于军事和广播。从此磁带做为"声音储存"媒介进入我们的视线。
7
{ynh,cxh}@
自适应多速率 Adaptive Multi-Rate (AMR)
当全部参数均能解码时，全速率及EFR编解码器可实现良好的语音再现。但当参数丢失或错误时，所接收信号的质量将迅速下降。
AMR编解码器组由速率从12.2kbps至4.75kbps的 ACELP声码器组成，故可提供87%至480%的冗余。在一种很糟的情况下，即全速率及EFR帧丢失很久后， 4.75kbps编解码器数据仍能恢复。
18
{ynh,cxh}@
回顾3：从编译码器原理看音频压缩
Review
波形编译码器
PCM、DPCM、ADPCM、SB-ADPCM CD：PCM（16bit/44.1kHz） SACD（Super Audio CD）：△M（1bit/2.8224MHz）
音源编译码器
话音生成模型：声道被等效成一个时变滤波器，激励函数是由白噪声、无声话音段或有声话音段。
MP3是基于感知特性的经典案例 MPEG1 Audio Layer3
临界频带频域掩蔽时间掩蔽
Masker
Masked Sounds
立体声数据的冗余 Huffman MDCT
21
{ynh,cxh}@
基于人的听觉感知特性 just noticeable difference (JND)
长期预测(LTP) 规则脉冲激励(RPE)
8个系数被变换成可以更少的位数来进行更佳量化的LAR(log-area ratio)。
The encoder accepts 13 bit linear PCM at a 8 kHz sample rate. This can be direct from an ADC in a phone or computer, or converted from G.711 8-bit nonlinear A-law or μ-law PCM from th5e PSTN with a lookup{tyanbh,lcexh.}@
Technical Details of Lossless Audio
Compression Formats
Review
无损音频压缩的应用
*.APE、*.FLAC、*.WAV
原声带或者电影原声碟，英文叫Original Sound Track，简称OST。就是将一部电影或一部电视剧的主题曲（歌）和主要的插曲或配乐录一起，制作成一张完整的唱片发行。
8
{ynh,cxh}@
3G中AMR
1999年初,3GPP采纳了由爱立信、诺基亚、西门子提出的自适应多速率(AMR)标准作为第三代移动通信中语音编解码器的标准。 AMR标准针对不同的应用，分别提出了AMR－NB， AMR-WB和AMR-WB+三种不同的协议。AMR-NB应用于窄带，而AMR-WB和AMR-WB+则应用于宽带通信中。 AMR声码器采用ACELP (Algebraic Code Excited Linear Prediction)编码方式，提供了8种编码速率 (4.75~12.20kbit/s) ，每种速率都有不同的容错率。
线性预测编码(LPC)
混合编译码器
话音生成模型中的激励信号尽可能接近于原始话音的波形。 MPE、RPE、CELP ……
感知编码
mpeg1 Layer1/2/3、mpeg2 BC & AAC、AC-3
19
{ynh,cxh}@
音频编码算法和标准一览 Review
20
{ynh,cxh}@
增强型全速率(EFR)
EFR声码器是一种代数码激励线性预测 (ACELP)编码器， EFR声码器的 12.2kbps输出等于每帧244位。但编码语音是通过拥有260位容量的常规GSM全速率空中信道来传输，其余16位被填以CRC 以及重复一些用于冗余的最重要编解码器参数。
6
{ynh,cxh}@
/timelines/
14
{ynh,cxh}@
音频压缩/音频处理技术
Review AD（数字化）压缩解压缩DA
数字化的过程也可以实现压缩（采样、量化）
15
{ynh,cxh}@
回顾2：从压缩方法分类看音频压缩
代数码激励线性预测 ACELP
Algebraic code-excited linear prediction (ACELP) is a patented speech coding algorithm by VoiceAge Corporation in which a limited set of pulses is distributed as excitation to linear prediction filter. The ACELP method is widely employed in current speech coding standards such as AMR, EFR, AMR-WB (G.722.2), VMR-WB, EVRC, EVRC-B, SMV, TETRA, PCS 1900, MPEG-4 CELP and ITU-T G-series standards G.729, G.729.1 (first coding stage) and G.723.1.
多媒体通信 Multimedia Communications
第2章多媒体数据压缩国际标准关于图像压缩标准
2015年10月12日
第2章多媒体数据压缩国际标准
2.1 多媒体数据压缩编码的重要性和分类
2.2 常见数据压缩方法分类与基本原理
2.3 音频压缩标准
2.2.1 话音编码基础
2.2.2 三种话音编码器 2.2.3 MPEG Audio
Commercial digital recordings were released in the 1960s.
The first 16-bit PCM recording in the United States was made by Thomas Stockham at the Santa Fe Opera in 1976, on a Soundstream recorder.
音量控制
时变数字滤波器
语音输出
3
{ynh,cxh}@
GSM网络中的音频编码
GSM系统中有四种编解码器
半速率全速率(FR) 增强型全速率(EFR) 自适应多速率(AMR)
4
{ynh,cxh}@
全速率
全速率编解码器就被称为RPE-LTP线性预测编码器
The JND for human pitch perception is shown graphically along with the critical bandwidth curve (Zwicker et al, 1957), in which sinusoidal stimuli were used. It turns out that the JND is approximately one thirtieth of the critical bandwidth across the hearing range. Musically, this is equivalent to approximately on22e twelfth of a semi{tyonhn,cexh.}@