音频编码技术可分为那两大类

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1音频编码技术可分为那两大类?按照压缩方案的不同可分为哪几类?

一般来讲,可以讲音频编码技术分为无损压缩及有损压缩两大类,而按照压缩方案的不同,又将其分为时域压缩,子带压缩,变换压缩,以及多种技术相互融合的混合压缩等

2简述语音信号的特点?

语音信号的特点是连续变化的,具有短时平稳性,间隙性等特点。语音信号是冗余很高的随机信号,声音的频率比较低

3声音有那四种性质?并说明各种含义?

声音有音高,音值,音量和音色四种性质,这些性质决定了声音的本质特征,他们在声学研究中占有重要的位置。

音高就是声音的高低,它是发声物体振动频率的高低决定的

音值就是声音的长短,它是发声体振动延续的时间长短来决定的

音量就是声音的强弱,它是发声体振动幅度的大小决定的

音色就是声音的色彩,它是发声体产生的泛音的多少和各个泛音的强弱来决定的

4外耳在声音感知中有哪些作用啊?

一般认为外耳在声音感知中有两个作用,一是对声源的定位。一是对声音的放大。对声音的放大除了外耳道的共振效应外,头的衍射效应也会增大鼓膜处的声压,对声音的放大得到20db左右的大小。

5简述音频信号数字化之前应作哪些预处理?并作简要的说明?

音频信号数字化之前,必须先进行防工频干扰滤波及防混叠滤波。其中工频干扰是指50hz的电源干扰,而防混叠滤波是滤除高于1∕2采样频率的信号成分或噪声,使信号带限制在某个范围内;否则,如果采样率不满足采样定理,则会产生频谱混叠,此时信号中的高频成分将产生失真。

6为什么要对语音信号进行加窗处理?简述汉明窗与矩形窗的特点?

由于语音信号具有短时平稳性,为了得到短时的音频信号,要对音频信号进行加窗操作。窗函数平滑地在音频信号上滑动,将音频信号分成帧,分帧可以连续,也可以采用交叠的分段的方法,交叠部分称为帧移,一般为窗上的一半。

矩形窗的频率分辨率比汉明窗好,汉明窗可以克服频谱泄露,汉明窗的第一个零值频率位置比矩形窗要大一倍左右,即汉明窗的带宽大约是同样宽度矩形窗带宽的两倍。汉明窗的衰减较相应的矩形窗大得多。矩形窗的谱平滑性较好,但波形细节丢失,并且矩形窗会产生泄露现象,而汉明窗可以有效的克服泄露现象,应用范围也最为广泛。

7短时能量与短时平均过零率的定义及用途?

短时能量是音频信号的平方经过一个线性滤波器的输出。

用途短时能量可以有效的判断信号幅度的大小,并用于进行有声/无声判定,这对音频的信号检测非常重要的,有声语音的短时能量大,无声语音的短时能量小。

短时过零率是音频信号时域分析中最简单的一种特征,它是每帧内信号通过零值得次数。短时过零率可是判断清音或者浊音。清音的短时过零率高,因为清音有高音频率。

可以将短时能量和短时过零率结合起来判断音频信号的起止点的位置,即进行端的检测。在背景噪声较小时,短时能量比较准确,但当噪声比较大时,短时过零率可以获得较好的检测结果。

8时谱和倒谱的应用?

倒谱最初始的数学定义是对数功率谱的傅氏变换、再取模的平方。因此也称为功率倒谱或功率时谱,因此是时间域的。

基于倒谱理论研究了倒谱的性质,利用倒谱可拾取谐波信息,并基于此提取了船舰辐射噪声的倒谱信息。

蛋品加工中能够快速地检测并剔除破损蛋,

短时谱

将现代技术应用于中医脉象诊断,以便更科学,更客观地揭示脉象的实质与特征,根据脉象信号离散短时功率谱的三维立体图及等高线图,以平均功率P1与总平均功率P的比值为特征参数,初步提出了用于划分正常人和吸毒者的临界参数

9 根据音频压缩技术的原理,音频编码方法可分为哪几类?

根据音频压缩技术的原理,音频编码方法可分为以下几类:

(1)基于音频数据的统计特征进行编码,典型的是波形编码技术。

(2)基于音频的声学特征进行参数编码,其目标是使重建音频保持原音频的特征。(3)基于人耳的听觉特征进行编码,从人耳的听觉系统出发,利用掩饰效应,设计心理声学模型,从而实现更高效率的音频编码方法。

10常用的音频编码格式有哪些?

(1)PCM编码(2)W A V(3)MP3(4)MP3PRO(5)RealMedia (6)Windows Media

(7)MIDI(8)OggV orbis(9)VQF(10)Mod

(11)Monkey’sAudio(12)AIFF(13)AU(14)VOC(15)VOX

11 重点掌握W A V,MP3文件结构

MP3文件大体分为三部分:TAG_V2(ID3V2) 、FRAME TAG_V1( ID3V1)

每一部分含义如下所示

ID3V2 :包含作者,作曲,专辑等信息,长度不固定,扩展了ID3V1信息量。

FRAME :一系列的帧,个数有文件大小和帧长决定。每一帧的长度可能不固定,也可能固定,有数码率决定。每一帧又分为帧头和数据实体两部分,帧头记录了MP3得数码率,采样率,版本等信息,各帧间相互独立。

ID3V1:包括作者,作曲,专辑等信息,长度为128B

Wav的文件结构

WAVE是录音时用的标准的WINDOWS文件格式,文件的扩展名为“WAV”,数据本身的格式为PCM或压缩型。

WAV文件格式是一种由微软和IBM联合开发的用于音频数字存储的标准,它采用RIFF文件格式结构,非常接近于AIFF和IFF格式。符合RIFF Resource Interchange File Format 规范。所有的WAV都有一个文件头,这个文件头音频流的编码参数。

WAV文件作为最经典的Windows多媒体音频格式,应用非常广泛,它使用三个参数来表示声音:采样位数、采样频率和声道数。

相关文档
最新文档