音频信息处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音压缩编码(1)
压缩编码的目的:在保证一定图像(或 声音)质量的条件下,以最小的数据率 来表达和传送图像(或声音)信息。
压缩编码的必要性:实际应用中,维压 缩编码的音频数据量很大,进行传输或 存储数据量很不现实。
语音压缩编码(2)
数据能够得到压缩的可能性 (1)原始数据中存在着大量的冗余信息; (2)视频和音频信息的最终接收者是人,人的
声音文件的格式(5)
MPEG音频文件——.MP1/.MP2/.MP3
(1)MPEG是运动图象专家组(Moving Picture Experts Group) 的英文缩写,代表MPEG运动图象压缩标准,这里的音 频文件格式指的是MPEG标准中的音频部分,即MPEG音 频层(MPEG Audio Layer);
语音压缩编码(4)
(2)数据量: 数据量=(采样频率x量化位数)/8(字节数) x
声道数目 (3)算法复杂度:在保证质量的前提下,
尽量减少算法复杂度
语音压缩编码分类
从技术特征上可分为三类:
(1)波形编译码器(waveform codecs) 波形编译码器的话音质量高,但数据率也很高
(2)音源编译码器(source codecs) 音源编译码器的数据率很低,产生的合成话音 的音质有待提高
(2)用于保存Windows平台的音频信息资源,被 Windows平台及其应用程序所广泛支持。
(3)Wave格式支持MSADPCM、CCITT A Law、 CCITT μ Law和其他压缩算法,支持多种音频位 数、采样频率和声道,是PC机上最为流行的声 音文件格式,
(4)但其文件尺寸较大,多用于存储简短的声音 片断。
视觉和听觉器官都具有某种不敏感性,舍去人 的感官所不敏感的信息对图像或声音质量的影 响很小,在有些情况下,甚至可以忽略不计; (3)对声音波形取样后,相邻样值之间存在着 很强的相关性;
语音压缩编码(3)
进行压缩编码时应该考虑的几个因素 (1)音频质量:主观评价和客观评价
主观评价:主观意见打分(1~5级[分]) 客观评价:测量某些特性来评价解码 音频的质量,如测量信噪比等。
声道数目 如:激光唱盘一分钟音乐需要的存储量为: 44.1X1000Xl6X2X60/8=10,584,000(字节)
声音概述(7)
从人机交互的角度看音频信号处理 (1)人→计算机:包括音频获取;语音识
别和理解等; (2)计算机→人:音乐合成、语音合成、
立体声模拟等; (3)人→计算机→人:语音采集、音频编
(3)AIFF支持ACE2、ACE8、MAC3和MAC6压缩, 支持16位44.1kHz立体声。
声音文件的格式(3)
Audio文件——.AU (1)Audio文件是Sun Microsystems公司推出
的一种经过压缩的数字声音格式,是 Internet中常用的声音文件格式; (2)Netscape Navigator浏览器中的LiveAudio 也支持Audio格式的声音文件。
声音文件的格式(4)
Sound文件——.SND Sound文件是NeXT Computer公司推出的数字声
音文件格式,支持压缩。
Voice文件——.VOC Voice文件是Creative Labs(创新公司)开发的声
音文件格式,多用于保存Creative Sound Blaster(创新声霸)系列声卡所采集的声音数据, 被Windows平台和DOS平台所支持,支持CCITT A Law和CCITT μ Law等压缩算法。
声音概述(3)
人与人之间、人与机器之间声音信息处 理流程图
声音概述(4)
数字音频 将模拟的(连续的)声音波形数字化(离散 化),以便利用数字计算机进行处理的过 程,主要包括采样和量化两个方面。
数字音频的质量取决于:采样频率和量 化位数这两个重要参数。此外,声道的 数目、相应的音频设备也是影响音频质 量的原因。
脉冲编码调制(4)
对数编解码框图
脉冲编码调制(5)
μ 律(μ –law)(北美的压缩标准)
x(n)
ln[1 u
]
y(n) X max
X max sign[x(n)] ln(1 u)
其中Xmax是信号x(n)得最大幅度,u是控制
压缩程序的参数,u越大压缩就越厉害。
脉冲编码调制(6)
A律(A-Law)(欧洲的压缩标准)
2 0
x2dx
1 12
q2
1 12
A (2w
)2
(4)将信噪比用分贝表示:
SNR(dB) = 10log10
E1 E2
2w 10log10 ( 2w1
)2
1 20log10 ( 2)
6[dB]
音频文件的格式
音频文件通常分为两类:声音文件和MIDI文件 (1)声音文件:指的是通过声音录入设备录制
6、量化跨度:在分割振幅时个个小区间的宽度
采样和量化(2)
采样
采样和量化(3)
量化
采样和量化(4)
量化位数每增加一位,信噪比改善6dB
(1)量化位数W、最大振幅A、量化跨度q 之间的关系:q = A / 2 w-1
(2)当量化跨度远小于信号振幅时:
q = A / 2w
qΒιβλιοθήκη Baidu
(3)量化噪音功率: E 2 q
(2)MPEG音频文件的压缩是一种有损压缩,根据压缩质 量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3),分别对应MP1、MP2和MP3这三种声音文件;
(3)MPEG音频编码具有很高的压缩率,MP1和MP2的压缩 率分别为4∶1和6∶1~8∶1,而MP3的压缩率则高达 10∶1~12∶1,也就是说一分钟CD音质的音乐,未经压 缩需要10MB存储空间,而经过MP3压缩编码后只有1MB 左右,同时其音质基本保持不失真,因此,目前使用最 多的是MP3文件格式。
y(n)
1 X max
ln(A( x(n) / 1 ln A
X max
signx(n)
y(n) A x(n) signx(n)
1 ln A
1 x(n) 1 A X max 0 x(n) 1
X max A
脉冲编码调制(7)
(3)网络连接速率不同,客户端所获得的声音 质量也不尽相同:对于28.8Kbps的连接,可以 达到广播级的声音质量;如果拥有ISDN或更快 的线路连接,则可获得CD音质的声音。
MIDI文件格式
MIDI文件——.MID/.RMI
(1)MIDI是乐器数字接口(Musical Instrument Digital Interface)的英文缩写,是数字音乐/电子合成乐器 的统一国际标准;
(3)混合编译码器(hybrid codecs) 混合编译码器使用音源编译码技术和波形编译 码技术,数据率和音质介于它们之间。
(4)基于听觉特性的编译码器 从人的听觉系统出发,利用掩蔽效应,设计心 理学声学模型,从而实现更高效率的音频压缩。
波形编译码器
基本思想 不利用生成话音信号的任何知识而企图 重构原始话音波形
音强度变化,清音与浊音幅度差异,实 际所能达到的信噪比要小于计算值。 因为:量化器每增加一位,信噪比增大 6dB
脉冲编码调制(3)
瞬时压扩 压扩目的:根据语音抽样非均匀分布的特点, 设法让量化阶距随信号的概率密度的减少而增 大,或者说把大的量化误差留给出现概率小的 样值,从而得到较大的信噪比。 瞬时压扩:量化前用对数函数将幅度压缩,解 码后再用指数函数进行幅度扩张。 瞬时压扩的好处:量化器的信噪比对信号幅度 不敏感。
声音概述(5)
数字音频可以分为如下几个等级
信号类型 频率范围(Hz) 采样率(kHz) 量化精度(位)
电话话音 200~3400
8
8
宽带音频
50~7000
16
16
调频广播
20~15k
37.8
16
高质量音频 20~20k
44.1
16
声音概述(6)
数字音频的存储量 存储量=(采样频率x量化位数)/8(字节数) x
(4)相对于保存真实采样数据的声音文件,MIDI 文件显得更加紧凑,其文件尺寸通常比声音文 件小得多。
模块文件
模块文件——.MOD/.S3M/.XM/.MTM/.FAR/.KAR/
(1)模块(Module)格式是一种已经存在了很长时 间的声音记录方式,它同时具有MIDI与数字音 频的共同特性;
(2)模块文件中既包括如何演奏乐器的指令, 又保存了数字声音信号的采样数据,为此,其 声音回放质量对音频硬件的依赖性较小,也就 是说,在不同的机器上可以获得基本相似的声 音回放质量。模块文件根据不同的编码方法有 MOD、S3M、XM、MTM、FAR、KAR、IT等多种 不同格式。
声音文件的格式(6)
RealAudio文件——.RA/.RM/.RAM
(1)RealAudio文件是RealNetworks公司开发的一 种新型流式音频(Streaming Audio)文件格式;
(2)它包含在RealNetworks公司所制定的音频、 视频压缩规范RealMedia中,主要用于在低速率 的广域网上实时传输音频信息;
码/解码、音频传输、基于内容检索等;
采样和量化(1)
基本概念
1、取样周期:对连续信号取样的时间间隔T 2、取样频率:单位时间内的取样次数1/T 3、奈魁斯特取样定理:要从样值序列完全恢复
原始的波形,取样频率必须大于原始有用音频 最高频率的2倍 4、量化:对声音信号波形振幅值的离散化 5、量化误差(或量化噪音):量化后的振幅代 表值与真实振幅值之间的差;
的原始声音,直接记录了真实声音的二进制采 样数据,通常文件较大; (2)MIDI文件:它是一种音乐演奏指令序列,相 当于乐谱,可以利用声音输出设备或与计算机 相连的电子乐器进行演奏,由于不包含声音数 据,其文件尺寸较小。
声音文件的格式(1)
Wave文件——.WAV
(1)Wave格式是Microsoft公司开发的一种声音文 件格式,它符合RIFF(Resource Interchange File Format)文件规范;
特点 复杂程度比较低,数据速率在16 kb/s以上, 质量相当高,低于这个数据速率时,音 质急剧下降。
脉冲编码调制(1)
脉冲编码调制(pulse code modulation,PCM) 特点:仅仅是对输入信号进行采样和量化
脉冲编码调制(2)
均匀量化脉冲编码调制的不足 (1)数据量大 (2)在给定量化器码位的情况下,由于语
音频信息处理
本章的主要内容 (1)声音概述(特点、分类) (2)声音的采样和量化 (3)声音文件的格式 (4)语音压缩编码基础 (5)语音合成和语音识别技术技术
声音概述(1)
什么是声音? 声音是通过空气传播的一种连续的波。 声波压力的大小体现声音的强弱 声音的频率体现音调的高低
声音的重要性和特点 信息量大、精细、精确
声音文件的格式(2)
AIFF文件——.AIF/.AIFF (1)AIFF是音频交换文件格式(Audio Interchange
File Format)的英文缩写,是苹果计算机公司开 发的一种声音文件格式;
(2)被Macintosh平台及其应用程序所支持, Netscape Navigator浏览器中的LiveAudio也支持 AIFF格式,SGI及其他专业音频软件包也同样支 持这种格式。
(2)它定义了计算机音乐程序、合成器及其他电 子设备交换音乐信号的方式,还规定了不同厂家 的电子乐器与计算机连接的电缆和硬件及设备间 数据传输的协议,可用于为不同乐器创建数字声 音,可以模拟大提琴、小提琴、钢琴等常见乐器;
MIDI文件格式
(3)在MIDI文件中,只包含产生某种声音的指令, 这些指令包括使用什么MIDI设备的音色、声音 的强弱、声音持续多长时间等,计算机将这些 指令发送给声卡,声卡按照指令将声音合成出 来,MIDI声音在重放时可以有不同的效果,这 取决于音乐合成器的质量;
声音的分类 频率小于20 Hz的信号称为亚音(subsonic); 频率范围为20 Hz~20 kHz的信号称为音频(Audio) 高于20 kHz的信号称为超音频(ultrasonic)
声音概述(2)
音频信号的分类:语音信号和非语音信 号(风声、雨声、鸟叫声、机器声等, 即乐音和杂音),非语音信号的特点是 不具有复杂的语义和语法信息,信息量 低、识别简单。语音是语言的载体,是 人类社会特有的一种信息系统,是社会 交际工具的符号。
相关文档
最新文档