音频复习——精选推荐
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
⾳频复习
第⼀章
1、本课程研究⾳频技术的哪些⽅⾯?
⾳频信息常⽤的编码压缩技术、⾳频分类和场景分析技术、⾳频信息检索技术,以及⾳频⽔印与⾳频信息伪装技术。
2、⼈⽿的⾳频感知范围是多少?
20Hz~~20KHz
3、⾳频编码技术按照是否有信息丢失可以分为哪⼏类?
⼀般来讲,可以讲⾳频编码技术分为⽆损压缩及有损压缩两⼤类,⽽按照压缩⽅案的不同,⼜将其分为时域压缩,⼦带压缩,变换压缩,以及多种技术相互融合的混合压缩等.
4、MP3是哪个组织的编码标准?具体是哪个标准下的编
码标准?
MPEG;MPEG-1标准衍⽣的、开放的编码⽅案。
5、A VS编码标准是哪个组织的标准?
数字⾳视频编解码技术标准⼯作组(A VS⼯作组,中国);
6、你所熟知的语⾳编码类型有哪些?
LPCM、MP3、WMA、AAC
7、了解Informedia 系统的原理?
多媒体搜索,是指带图⽚或媒体⽂件搜索功能的引擎,包括图像检索、⾳频检索、视频检索,
基于内容的图像检索:
它是根据分析图像的内容,提取其颜⾊、形状、纹理,以及对象空间关系等信息,建⽴图像的特征索引。
及包括动漫、⾳乐电影、电视等等。
基于内容的视频检索:
基于内容的视频信息检索是当前多媒体数据库发展的⼀个重要研究领域,它通过对⾮结构化的视频数据进⾏结构化分析和处理,采⽤视频分割技术,将连续的视频流划分为具有特定语义的视频⽚段――镜头,作为检索的基本单元,在此基础上进⾏代表帧(representative frame)的提取和动态特征的提取,形成描述镜头的特征索引;依据镜头组织和特征索引,采⽤视频聚类等⽅法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩⼩检索范围,直⾄查询到所需的视频数据。
其中,视频分割、代表帧和动态特征提取是基于内容的视频检索的关键技术。
基于内容的⾳频检索:
基于内容的图像检索要提取颜⾊、纹理、形状等特征,视频检索要提取关键帧特征,同样要实现基于内容的⾳频检索,必须从⾳频数据中提取听觉特征信息。
第⼆章
1、什么是基⾳?衡量声⾳有哪四个基本特征?
(1)复合振动所产⽣的⾳叫复合⾳。
其中整体振动所产⽣的⾳叫基⾳,各个部分振动所产⽣的⾳叫泛⾳。
(2)⾳⾼、⾳值(⾳长)、⾳量、⾳⾊
2、什么是频程?什么是倍频程?
(1)由于声⾳的频率分布宽⼴,在实际的应⽤中,在实际的频谱分析中,将20Hz~20kHz 的声频分为⼀定频率范围的段落,每⼀个具有⼀定频率范围的段落称为频带或频程。
(2)频程:两个声⾳的频率⽐的以2为底的对数称为频程。
n=log2 f2/f1.
n为倍频程数。
当n=1时,称为倍频程,当n=1/3时称为1/3频程。
3、什么是声强?声强级?
(1)声强是声⾳的客观强度,⼈感受到的声⾳强弱程度称为响度(loudness),它是⼈的主观感觉。
(2)
4、简述传声器的主要性能指标?
灵敏度、频率响应、⽅向性、输出阻抗以及等效噪声级、动态范围、最⾼声压级等。
5、什么是痛域-频率曲线?听阈-频率曲线?
6、⾳调与频率之间关系?
频率越⾼⾳调越⾼。
7、什么是遮掩效应?包括哪些类别?
(1)⼀个声⾳的听阈因另⼀个声⾳的掩蔽作⽤⽽提⾼的效应。
(2)同时遮掩(频域掩蔽)、异时遮掩(时域掩蔽)
第三章
1.采样定理?
在进⾏模拟/数字信号的转换过程中,当采样频率fs.max⼤于信号中最⾼频率fmax的
2倍时(fs.max>=2fmax),采样之后的数字信号完整地保留了原始信号中的信息,⼀般实际应⽤中保证采样频率为信号最⾼频率的5~10倍;采样定理⼜称奈奎斯特定理。
2.量化过程?量化误差?字长对量化误差是如何影响的?
(1)量化过程是指将每个采样值在幅度上再进⾏离散化处理。
(2)
3.加窗函数的窗⼝⼤⼩如何影响原信号?
窗函数平滑地在⾳频信号上滑动,将⾳频信号分成帧。
分帧可以连续,也可以采⽤交叠分段的⽅法,交叠部分称为帧移,⼀般为窗长的⼀半。
4.什么是过零率?清、浊⾳的过零率有何不同?在实际应⽤中如何避免误差带来的过零率的影响?
(1)过零率就是样本改变符号的次数。
(2)设定阈值T,将过零率修改为跨过正负阈值T的次数。
5.LPC原理?
⼀个⾳频信号的采样能够⽤过去若⼲个⾳频信号采样的线性组合来逼近,通过使线性预测的采样在最⼩均⽅误差意义上逼近实际⾳频信号采样,可以求取⼀组唯⼀的预测系数。
6.⾳频信号倒谱分析的三个步骤?
第⼀步是对信号进⾏Z变换,将卷积信号转变为乘积信号,这时得到的就是输⼊信号的频谱。
第⼆步是进⾏对数运算,将乘积信号变为加性信号。
第三步进⾏Z反变换运算,得到的就是输⼊信号的倒谱(Cepstrum)。
7. Mel-频率的关系?MFCC的计算流程框架?
(1)1kHz以下,与频率成线性关系,1kHz以上,与频率成对数关系
(2)
第四章
1、⾳频编码技术可以分为哪些类别?
⼀般来讲,可以讲⾳频编码技术分为⽆损压缩及有损压缩两⼤类,⽽按照压缩⽅案的不同,⼜将其分为时域压缩,⼦带压缩,变换压缩,以及多种技术相互融合的混合压缩等2、什么是有损压缩?什么是⽆损压缩?PCM/MP3属于哪⼀类?
①有损压缩也称信息量压缩⽅法,利⽤了⼈类听觉或视觉对声⾳或图像中的某些频率成分不敏感额特性,允许压缩过程中损失⼀定的信息,也就是说,解码数据和原始数据是有差别的,允许有⼀定的失真。
⽽且,损失的部分对原始数据听觉或视觉效果的影响较⼩。
有损压缩的压缩⽐往往较⼤,⼴泛应⽤于语⾳、图像和视频数据的压缩。
②⽆损压缩也称冗余压缩⽅法,它利⽤了数据的统计冗余进⾏压缩,解码后的数据与压缩编码前的数据严格相同,没有失真,是⼀种可逆运算。
这类⽅法的压缩⽐例⼀般不⾼,仅使⽤⽆损压缩⽅法不可能解决⾳频和视频数据的存储和传输问题。
③PCM编码直接保存⾳频数据的采样点数值,属于⽆损编码;MP3属于有损⾳频编码。
3、WA V的⽂件辨识信息头部
每个W A VE⽂件的头四个字节便是“RIFF”
4、MP3的⽂件辨识信息头部?采⽤速率是多少?
(1)⽂件头部分: ⼤⼩不限, 内容类似说明;
(2)32帧
5、什么是CBR,VBR?
(1)CBR(Constant Bitrate),常数⽐特率,指⽂件从头到尾都是⼀种位速率。
相对于VBR 和ABR来讲,它压缩出来的⽂件体积很⼤,但⾳质却不会有明显的提⾼。
(2)动态⽐特率。
6、G.721/722/728是哪⼀个组织的标准?应⽤于什么⾏业?
(1)CCITT
(2)功⽤ISDN配⾳
第五章
1、⾳频场景分割的⽬的什么?
就是根据⾳频特征将不同的⾳频信号区分开来,为⾳频的后续处理,例如分类做准备.通过⾳频场景分割,⼀⽅⾯可以对不同类别的声⾳信号采取不同的处理⽅式,从⽽减⼩了进⼀步处理的搜索空间;另⼀⽅⾯,⾳频场景分割的结果反映了⾳频内容的⾼级语义特征,特别是语⾳段的分析,对视频检索和理解视频的内容具有重要的意义.
2、场景分类中帧的常⽤⾳频特征有哪些?
MFCC⽅法、频域能量⽅法、⼦带能量⽐⽅法、过零率、频率质⼼、带宽、基⾳频率。
3、语⾳和⾳乐的⼦带能量分布有何不同?
语⾔的能量主要集中于第⼀⼦带,约80%;⾳乐的能量⽐较平均分布。
4、场景分类中⽚段的常⽤⾳频特征有哪些?
静⾳帧率、带宽均值和频谱质⼼均值、⾼过零率帧⽐率、低能量帧率、谱通量、基⾳频率标准⽅差、和谐度、平滑基⾳⽐。
5、语⾳和⾳乐的和谐度有何不同?
语⾳在低频频段的和谐度较⾼,在⾼频带和谐度较低。
⽽⾳乐信号在整个频率范围和谐度较
⾼。
6、五类别层次分类和⼋类别层次⾳频分类主要区别?
五层别类是基于帧的⾳频特征,⼋类别层次基于段的⾳频特征。
7、什么是⽮量量化?
⽮量量化技术技术是⼀种数据压缩和编码技术。
8、HMM的定义?
⼀般情况下,只能观察到输出符号序列(ab),⽽不能观测到状态之间如何转移(状态转移概率)和状态的分布(状态的概率),所以称为隐藏的马尔可夫模型。
第六章
1、什么CBAR ?
基于内容的⾳频检索
2、⾳频信息检索主要分为哪⼏类?
基于⽂本、基于内容、基于⾳乐的哼唱检索
2、什么是查全率?什么是查准率?
查全率=(检索出的相关信息量/系统中的相关信息总量)*100% ,查准率=(检索出的相关信息量/检索出的信息总
量)*100%,查全率是衡量检索系统和检索者检出相关信息的能⼒,查准率是衡量检索系统和检索者拒绝⾮相关信息的能⼒。
3、⾳频检索中常⽤的⾳频特征有哪些?
4、为什么要进⾏⾳频分割?
获得⾳频录⾳的结构关系。
5、画出⾳频检索系统的框架图。
7、传统⾳频检索技术的缺点有哪些?
⼀是当数据量越来越多时,⼈⼯注释的⼯作量加⼤;
⼆是不能⽀持实时⾳频数据流的检索。
第七章
1、什么数字⽔印技术?有何特点?
(1)数字⽔印技术是将⼀些标识信息(即数字⽔印)直接嵌⼊数字载体(包括多媒体、⽂档、软件等)当中,但不影响原载体的使⽤价值,也不容易被⼈的知觉系统(如视觉或听觉系统)觉察或注意到。
(2)可证明性、不可感知性、鲁棒性、安全性。
2、数字⽔印技术按照检测⽅式/外观区分可分为哪⼏类?
(1)检测⽅式:⾮盲检测、盲检测、半盲检测;(2)外观:不可见⽔印、可见⽔印
3、数字⽔印嵌⼊和检测过程的基本框架?
4、简述LSB的算法描述?
最不重要位⽅法是⼀种最简单的⽔印嵌⼊⽅法。
任何形式的⽔印都可以转换成⼀串⼆进制码流,⽽⾳频⽂件的每⼀个采样数据也是⽤⼆进制数来表⽰。
这样,可以将每⼀个采样值的最不重要位(多数情况下为最低位)⽤代表⽔印的⼆进制位替换,以达到在⾳频信号中嵌⼊⽔印的⽬的。
5、简述相位⽔印⽅法的全过程?
相位⽔印算法利⽤⼈⽿听觉系统对绝对相位不敏感以及对相对相位敏感的特性,使⽤代表⽔印数据的参考相位替换原始⾳频段的绝对相位,并对其他的⾳频段进⾏调整,以保持各段之间的相对相位不变。
6、余弦⽔印检测技术的嵌⼊框架与检测框架?
7、盲检测⽔印技术与⾮盲检测⽔印技术的主要区别?
盲检测⽔印系统在检测时候⽆原始载体数据C0。