视频检索技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7
Direct Show是为播放各种类型的视频数据、音频数据或其他多媒体 数据而设计的。Direct Show支持MPEG(包括MP3、AVI、MOV、WAV、DVD等 格式)。借助于Direct Show,可以很容易地实现多种格式的多媒体数据 的回放、传输和捕获。Direct Show使用Filter Graph的模型来管理整个 数据流的处理过程。利用Direct Show强大的功能,我们可以这样实现帧 的提取。首先建立过滤器图表,与特定的多媒体流相关联,然后加视频 抓帧过滤器进图表,并设置回调函数。当图表运行时,抓帧过滤器抓取 流过的视频帧(可进行设置,可以是每一帧,也可以是间隔固定帧),把 抓取的帧存储在视频库中。 利用Direct Show能够使开发者专注于各自的分析和处理,而无需 考虑带有共性的实现细节,极大地降低了多媒体应用开发的复杂度,并 提高了其开发效率。
视频检索技术
1. 视频检索简述
随着计算机技术和网络技术的发展,信息高速公路的建设,以 及多媒体的 推广应用, 各种视频资料源源不断地产生, 随 之建立起了越来越多的视频数据 库,出现了数字图书馆、数字 博物馆、数字电视、视频点播、远程教育、远程医疗等许多新的服务 形式和信息交流手段。 在传统的数据库系统中,信息的检索一般以数值和字符型为主, 而在多媒体数据库中集成图像、视频、音频等非格式化信息,它们具 有数据量大、信息不定长、结构复杂等特点。每一种媒体数据都有一 些难以用字符和数字符号描述的内容线索,如图像中某一对象的形状、 颜色和纹理,视频中的运动,声音的音调等。当用户要利用这些线索 对数据进行检索时,首先要将其人工转化为文本或关键词形式,这种 转换带有一定的主观性,且极其费时,因而仅仅基于关键词的检索已 不能满足用户的检索要求。数据库及其它信息系统不仅要能对图像、 视频和声音等媒体进行存储以及基于关键字的检索,而且要对多媒体 数据内容进行自动语义分析、表达和检索。
4
下面对视频检索的原理进行简要的介绍。
2.基于内容的视频检索 2.基于内容的视频检索
基于内容的视频分析和检索研究的目的是通过对视频内容进行 计算机处理、分析和理解,建立结构和索引,以实现方便有效的 视频信息获取。它是根据视频的内容以及上下文关联,在大规模 视频数据中进行检索。基于内容的视频检索包括很多技术,如: 视频结构的分析(镜头检测技术)、视频数据的自动索引和视频聚 类等。 目前,在基于内容的视频检索技术的研究方面,除了识别和描 述图像的颜色,纹理,形状和空间关系外,其他主要集中在视频 镜头分割,特征的提取和描述(包括:视觉特征,颜色,纹理和形 状及运动信息和对象信息等),关键帧提取和结构分析等方面。基 于内容的视频检索的系统框图见下图。
8
2.2 镜头检测技术
在基于内容的视频检索中,镜头是视频数据分析、编辑制作和检 索的基本单元。镜头边界检测的好坏将直接影响着视频的结构化以及 后续的浏览与检索。因此,它是实现基于内容检索的基础和重要步骤。 镜头检测也可以看作是一个分割问题——视频时域分割。视频 时域分割主要采用基于边界的方法。境头边界检测算法的思路就是: 第一,帧间差的计算。对帧视频提取各自不同的视觉或运动特征,并 对不同帧进行帧间差计算。第二,镜头边界的判断。 获取帧间差之后,设定一个判断准则,将获得的帧间差按照准 则来判断视频镜头是否发生了转变。其过程如图2.2所示。其中,F(i) 代表第I 帧视频,D(i)代表第i帧视频和第i+1帧视频的帧间差,S(k) 代表检测到的第k个镜头边界。镜头边界检测的算法主要有:基于模 板匹配的算法、基于直方图的算法、基于边缘的算法、基于运动分析 的算法和基于压缩视频的算法。
11
改进的镜头边界检测算法:
RGB模型是一种最简单最常用的颜色模型,是由国际 照明委员会制定。它表示红、绿、蓝三种单色光按照一定 的比例可以复合出其他任何颜色。RGB空间虽然比较简单, 但也有不足之处。首先,它不能很好的与人眼感知相匹配, 因此不能直观反映人的直觉感知。 其次,由于该模型的三个颜色分量不仅各自包含了物 体本身的颜色信息、和外部光强信息,相互之间还具有较 高的相关性,这使得颜色聚类特性不是很好,不适于以彩 色处理为目的的应用。HSV颜色空间是孟塞尔彩色空间的 简化形式,能够较好符合人眼感知特性,是较为适合人视 觉特性的色彩空间;所以需要将RGB颜色模型与HSV颜色模 型进行转化。
3
3:Video Q是由美国哥伦比亚大学研究开发的 一套全自动基于内容的视频查询系统。它扩充 了传统的关键字和主题导航的查询方法,允许 用户使用视觉特征和时空关系来检索视频。
4 : TV—FI 系 统 : TV—FI(Tsing hua Video Find It)是清华大学开发的视频节目管理 系统。该系统可提供视频数据入库、基于内容 的浏览、检索等功能, 并提供多种数据访问模 式,包括基于关键字查询、示例查询、按视频 结构浏览及按用户自定义类别进行浏览等。
15
2.5相似性度量 2.5相似性度量
5
基于内容的视频检索的系统框图 如下:
6பைடு நூலகம்
2.1 视频帧提取
视频检索的目的就是要从大量的视频数据中找到所需的视频片段。 视频数据是一个二维非结构化的图像序列,要实现基于内容的视频 检索,首先要从多媒体文件中提取视频帧序列,然后对这些图像流 进行处理,使之成为结构性的数据,提取其特征,从而达到检索目 的。 首先,介绍几个关于视频的基本概念。帧(Frame):视频流中的 基本组成单元,每一帧均可看成是一幅独立的图像。视频流数据就 是由连续图像帧构成的。帧是视频的最小单位。镜头(Shot):摄像机 拍下的不间断帧序列,是视频数据流进一步结构化的基础。同一组 镜头中,视频帧的图像特征基本保持稳定。若相邻图像帧之间的特 征 发 生 了 明 显 变 化 , 则 认 为 是 发 生 了 镜 头 变 换 。 关 键 帧 ( Key Frame):关键帧是代表镜头内容的图像帧。在一个视频镜头内, 关键帧的数目远小于镜头所包含的图像帧的数目。用关键帧代表镜 头可以大大减小计算复杂性。场景(Scene):语义上相关和时间上相 邻的若干组镜头组成了一个场景。场景是视频所蕴涵的高层抽象概 念和语义的表达。像镜头可以由关键帧代表一样,场景也可以使用 属于这个场景的所有镜头所对应的关键帧集合来表示。
2.4特征提取 2.4特征提取
视频关键帧提取后,就要对各个镜头进行特征提取,建立视频 单元索引。即提取镜头的颜色、纹理以及运动甚至高级语义等各种特 征,形成描述镜头的特征空间,以此作为视频聚类和检索的依据。 视频特征分为静态特征和动态特征。静态特征主要有颜色、纹 理和形状等。颜色是图像最显著的特征,与其它特征相比,颜色特征 计算简单、性质稳定,对于旋转,平移,尺度变化都不敏感。颜色特 征包括颜色直方图,主要颜色,平均亮度等。其中,利用主要颜色和 平均亮度进行图像的相似匹配是很粗略的,可作为层次检索方法的粗 查。 为 了能 够 在 大 规模 图 像 数 据集 中 进 行 快速 的 搜 索 , Smith和 Change等人提出了颜色集的概念:首先将RGB颜色空间转换为视觉上一 致空间HSV,然后量化为m个颜色条,颜色集就定义为量化后的颜色空 间中颜色的一种选择。
d 其中, ( I i , I i +1 ) 表示第i帧和第i+1帧的帧间差,表示像素的相应位 置,和分别表示第i帧和第i+1帧在处的像素值。N和M分别表示帧的高度 与宽度。该算法虽然计算简单,容易实现。但是,由于对像素位置的局 限,使其对噪声以及物体和相机的运动都比较的敏感,很多情况下,物 体很小的运动便会造成较大的误差。
目前,国内外已研发出了多个基于内容的视频检索系统, 主要有五种,如下:
1:QBIC系统:QBIC(Query By Image Content) 是由IBM Almade n研究中心开发的,是“基于内容”检索系统的典型代表。此系统主 要利用颜色、纹理、形状、摄像机和对象运动等描述视频内容, 并以 此实现其检索。QBIC提供了对静止图像及视频信息基于内容的检索手 段, 允许用户使用例子图像、构建草图、以及颜色和纹理模式、镜头 和目标运动等信息对大型图像和视频数据库进行查询。在视频数据分 析方面包括了镜头检测、运动估计、层描述、代表帧生成等多种视频 处理手段。 2:Visual Seek系统:Visual Seek是美国哥伦比亚大学电子工 程系与电信研究 中心图像和高级电视实验室共同研究的、一种在互 联网上使用的“基于内容”的检索系统。它实现了互联网上的“基于 内容”的图像/视频检索系统,提供了一套供人们在Web上搜索和检索 图像及视频的工具。
9
图 2-2 镜头边界检测过程如下所示:
10
下面对基于模板匹配的算法进行介绍。直接用相邻两帧对应像素差 的绝对值之和作为帧间差,公式如下:
d ( I i , I i +1 ) =
M −1, N −1 x = 0, y = 0
∑
I i ( x, y ) − I i +1 ( x, y )
(2.1)
1
视频检索就是要从大量的视频数据中找到所需的视频片 段。根据所给出的例子或是特征描述,系统就能够自动的找 到所需的视频片片段。根据提交视频内容的不同,视频检索 一般分为镜头检索和片段检索。 目前视频检索的多数研究还集中在镜头检索上。而片 段检索方面的研究则刚刚开始。实际上,从用户的角度分析, 他们对视频数据库的查询通常会是一个视频片段而很少会是 单个的物理镜头。从信息量的角度分析,由几个镜头组成的 视频片段有比单个镜头更多的语义,它可以表示用户感兴趣 的事件。因此查询的结果也比较有意义。 由于视频拍摄的多样性和后期编辑的复杂性,片段的 相似性有多种可能。把片段检索分为这样两种类型:精确检 索和相似性检索。一个完整的视频检索系统的关键技术主要 有:关键帧提取、图像特征提取、图像特征的相似性度量、 查询方式、以及视频片段匹配等方法。 视频检索是一门交叉学科,以图像处理、模式识别、 计算机视觉、图像理解等领域的知识为基础,从认知科学、 人工智能、数据库管理系统及人机交互,信息检索等领域, 引入媒体数据表示和数据模型,从而设计出可靠、有效的检 2 索算法,系统结构以及友好的人机界面。
12
图 2-3 RGB颜色模型图
2-4 HSV颜色模型
13
2.3 视频关键帧的提取
镜头通常是在一个场景下拍摄的,所以一个镜头下的各帧图像会有 相当多的重复信息。因此,通常选取能够描述镜头主要内容的帧,作为 关键帧,来简洁的表达镜头。一个镜头可以有一个或多个关键帧,这取 决于镜头内容的复杂程度。 提取关键帧的目的有两个方面:(1)静态表示视频节目的主题和 主要内容,而不是动态的细节。(2)从关键帧中提取颜色、纹理和形状 特征,以作为视频摘要和数据库索引的数据源,而不需要对每个画面都 重复。因此,关键帧应该具有代表性,不仅应代表主题方面的特征,还 应该视特征的不同而不同。因此,对关键帧的选取一般采用保守原则, 即“宁多勿少”。同时,在代表特征不具体的情况一下,一般去掉重复 (或冗余)帧。当选取多幅关键帧时,用于关键帧选取的准则是优先考虑 关键帧之间的不相似性,即以帧之间相似度作为衡量依据,每次寻找关 键帧都保证各关键帧之间具有最小相似度,以使关键帧带有最大信息量。 下面介绍关键帧提取的经典方法——基于帧平均的算法。 像素帧平均法和直方图帧平均法是关键帧提取的经典方法。由于它 们具有相同的基本思想,不同的只是选取的衡量平均值的特征,所以将 其归为一类,并统称为帧平均法。像素帧平均法是取一视频段中所有帧 的某位置上的像素值求其平均来作为比较的标准,将视频段中此位置像 素值最为接近平均值的帧,作为该视频段的关键帧。直方图帧平均法则 是选取所有帧直图的平均值作为标准,将直方图最接近平均值的帧作为 该视频段的关键帧。该算法虽然计算简单,所选取的帧也能最大程度上 接近平均值,但是对一个镜头只选取一个关键帧,不能够全面的描述其 14 内容,尤其是对内容变化较大的镜头。
Direct Show是为播放各种类型的视频数据、音频数据或其他多媒体 数据而设计的。Direct Show支持MPEG(包括MP3、AVI、MOV、WAV、DVD等 格式)。借助于Direct Show,可以很容易地实现多种格式的多媒体数据 的回放、传输和捕获。Direct Show使用Filter Graph的模型来管理整个 数据流的处理过程。利用Direct Show强大的功能,我们可以这样实现帧 的提取。首先建立过滤器图表,与特定的多媒体流相关联,然后加视频 抓帧过滤器进图表,并设置回调函数。当图表运行时,抓帧过滤器抓取 流过的视频帧(可进行设置,可以是每一帧,也可以是间隔固定帧),把 抓取的帧存储在视频库中。 利用Direct Show能够使开发者专注于各自的分析和处理,而无需 考虑带有共性的实现细节,极大地降低了多媒体应用开发的复杂度,并 提高了其开发效率。
视频检索技术
1. 视频检索简述
随着计算机技术和网络技术的发展,信息高速公路的建设,以 及多媒体的 推广应用, 各种视频资料源源不断地产生, 随 之建立起了越来越多的视频数据 库,出现了数字图书馆、数字 博物馆、数字电视、视频点播、远程教育、远程医疗等许多新的服务 形式和信息交流手段。 在传统的数据库系统中,信息的检索一般以数值和字符型为主, 而在多媒体数据库中集成图像、视频、音频等非格式化信息,它们具 有数据量大、信息不定长、结构复杂等特点。每一种媒体数据都有一 些难以用字符和数字符号描述的内容线索,如图像中某一对象的形状、 颜色和纹理,视频中的运动,声音的音调等。当用户要利用这些线索 对数据进行检索时,首先要将其人工转化为文本或关键词形式,这种 转换带有一定的主观性,且极其费时,因而仅仅基于关键词的检索已 不能满足用户的检索要求。数据库及其它信息系统不仅要能对图像、 视频和声音等媒体进行存储以及基于关键字的检索,而且要对多媒体 数据内容进行自动语义分析、表达和检索。
4
下面对视频检索的原理进行简要的介绍。
2.基于内容的视频检索 2.基于内容的视频检索
基于内容的视频分析和检索研究的目的是通过对视频内容进行 计算机处理、分析和理解,建立结构和索引,以实现方便有效的 视频信息获取。它是根据视频的内容以及上下文关联,在大规模 视频数据中进行检索。基于内容的视频检索包括很多技术,如: 视频结构的分析(镜头检测技术)、视频数据的自动索引和视频聚 类等。 目前,在基于内容的视频检索技术的研究方面,除了识别和描 述图像的颜色,纹理,形状和空间关系外,其他主要集中在视频 镜头分割,特征的提取和描述(包括:视觉特征,颜色,纹理和形 状及运动信息和对象信息等),关键帧提取和结构分析等方面。基 于内容的视频检索的系统框图见下图。
8
2.2 镜头检测技术
在基于内容的视频检索中,镜头是视频数据分析、编辑制作和检 索的基本单元。镜头边界检测的好坏将直接影响着视频的结构化以及 后续的浏览与检索。因此,它是实现基于内容检索的基础和重要步骤。 镜头检测也可以看作是一个分割问题——视频时域分割。视频 时域分割主要采用基于边界的方法。境头边界检测算法的思路就是: 第一,帧间差的计算。对帧视频提取各自不同的视觉或运动特征,并 对不同帧进行帧间差计算。第二,镜头边界的判断。 获取帧间差之后,设定一个判断准则,将获得的帧间差按照准 则来判断视频镜头是否发生了转变。其过程如图2.2所示。其中,F(i) 代表第I 帧视频,D(i)代表第i帧视频和第i+1帧视频的帧间差,S(k) 代表检测到的第k个镜头边界。镜头边界检测的算法主要有:基于模 板匹配的算法、基于直方图的算法、基于边缘的算法、基于运动分析 的算法和基于压缩视频的算法。
11
改进的镜头边界检测算法:
RGB模型是一种最简单最常用的颜色模型,是由国际 照明委员会制定。它表示红、绿、蓝三种单色光按照一定 的比例可以复合出其他任何颜色。RGB空间虽然比较简单, 但也有不足之处。首先,它不能很好的与人眼感知相匹配, 因此不能直观反映人的直觉感知。 其次,由于该模型的三个颜色分量不仅各自包含了物 体本身的颜色信息、和外部光强信息,相互之间还具有较 高的相关性,这使得颜色聚类特性不是很好,不适于以彩 色处理为目的的应用。HSV颜色空间是孟塞尔彩色空间的 简化形式,能够较好符合人眼感知特性,是较为适合人视 觉特性的色彩空间;所以需要将RGB颜色模型与HSV颜色模 型进行转化。
3
3:Video Q是由美国哥伦比亚大学研究开发的 一套全自动基于内容的视频查询系统。它扩充 了传统的关键字和主题导航的查询方法,允许 用户使用视觉特征和时空关系来检索视频。
4 : TV—FI 系 统 : TV—FI(Tsing hua Video Find It)是清华大学开发的视频节目管理 系统。该系统可提供视频数据入库、基于内容 的浏览、检索等功能, 并提供多种数据访问模 式,包括基于关键字查询、示例查询、按视频 结构浏览及按用户自定义类别进行浏览等。
15
2.5相似性度量 2.5相似性度量
5
基于内容的视频检索的系统框图 如下:
6பைடு நூலகம்
2.1 视频帧提取
视频检索的目的就是要从大量的视频数据中找到所需的视频片段。 视频数据是一个二维非结构化的图像序列,要实现基于内容的视频 检索,首先要从多媒体文件中提取视频帧序列,然后对这些图像流 进行处理,使之成为结构性的数据,提取其特征,从而达到检索目 的。 首先,介绍几个关于视频的基本概念。帧(Frame):视频流中的 基本组成单元,每一帧均可看成是一幅独立的图像。视频流数据就 是由连续图像帧构成的。帧是视频的最小单位。镜头(Shot):摄像机 拍下的不间断帧序列,是视频数据流进一步结构化的基础。同一组 镜头中,视频帧的图像特征基本保持稳定。若相邻图像帧之间的特 征 发 生 了 明 显 变 化 , 则 认 为 是 发 生 了 镜 头 变 换 。 关 键 帧 ( Key Frame):关键帧是代表镜头内容的图像帧。在一个视频镜头内, 关键帧的数目远小于镜头所包含的图像帧的数目。用关键帧代表镜 头可以大大减小计算复杂性。场景(Scene):语义上相关和时间上相 邻的若干组镜头组成了一个场景。场景是视频所蕴涵的高层抽象概 念和语义的表达。像镜头可以由关键帧代表一样,场景也可以使用 属于这个场景的所有镜头所对应的关键帧集合来表示。
2.4特征提取 2.4特征提取
视频关键帧提取后,就要对各个镜头进行特征提取,建立视频 单元索引。即提取镜头的颜色、纹理以及运动甚至高级语义等各种特 征,形成描述镜头的特征空间,以此作为视频聚类和检索的依据。 视频特征分为静态特征和动态特征。静态特征主要有颜色、纹 理和形状等。颜色是图像最显著的特征,与其它特征相比,颜色特征 计算简单、性质稳定,对于旋转,平移,尺度变化都不敏感。颜色特 征包括颜色直方图,主要颜色,平均亮度等。其中,利用主要颜色和 平均亮度进行图像的相似匹配是很粗略的,可作为层次检索方法的粗 查。 为 了能 够 在 大 规模 图 像 数 据集 中 进 行 快速 的 搜 索 , Smith和 Change等人提出了颜色集的概念:首先将RGB颜色空间转换为视觉上一 致空间HSV,然后量化为m个颜色条,颜色集就定义为量化后的颜色空 间中颜色的一种选择。
d 其中, ( I i , I i +1 ) 表示第i帧和第i+1帧的帧间差,表示像素的相应位 置,和分别表示第i帧和第i+1帧在处的像素值。N和M分别表示帧的高度 与宽度。该算法虽然计算简单,容易实现。但是,由于对像素位置的局 限,使其对噪声以及物体和相机的运动都比较的敏感,很多情况下,物 体很小的运动便会造成较大的误差。
目前,国内外已研发出了多个基于内容的视频检索系统, 主要有五种,如下:
1:QBIC系统:QBIC(Query By Image Content) 是由IBM Almade n研究中心开发的,是“基于内容”检索系统的典型代表。此系统主 要利用颜色、纹理、形状、摄像机和对象运动等描述视频内容, 并以 此实现其检索。QBIC提供了对静止图像及视频信息基于内容的检索手 段, 允许用户使用例子图像、构建草图、以及颜色和纹理模式、镜头 和目标运动等信息对大型图像和视频数据库进行查询。在视频数据分 析方面包括了镜头检测、运动估计、层描述、代表帧生成等多种视频 处理手段。 2:Visual Seek系统:Visual Seek是美国哥伦比亚大学电子工 程系与电信研究 中心图像和高级电视实验室共同研究的、一种在互 联网上使用的“基于内容”的检索系统。它实现了互联网上的“基于 内容”的图像/视频检索系统,提供了一套供人们在Web上搜索和检索 图像及视频的工具。
9
图 2-2 镜头边界检测过程如下所示:
10
下面对基于模板匹配的算法进行介绍。直接用相邻两帧对应像素差 的绝对值之和作为帧间差,公式如下:
d ( I i , I i +1 ) =
M −1, N −1 x = 0, y = 0
∑
I i ( x, y ) − I i +1 ( x, y )
(2.1)
1
视频检索就是要从大量的视频数据中找到所需的视频片 段。根据所给出的例子或是特征描述,系统就能够自动的找 到所需的视频片片段。根据提交视频内容的不同,视频检索 一般分为镜头检索和片段检索。 目前视频检索的多数研究还集中在镜头检索上。而片 段检索方面的研究则刚刚开始。实际上,从用户的角度分析, 他们对视频数据库的查询通常会是一个视频片段而很少会是 单个的物理镜头。从信息量的角度分析,由几个镜头组成的 视频片段有比单个镜头更多的语义,它可以表示用户感兴趣 的事件。因此查询的结果也比较有意义。 由于视频拍摄的多样性和后期编辑的复杂性,片段的 相似性有多种可能。把片段检索分为这样两种类型:精确检 索和相似性检索。一个完整的视频检索系统的关键技术主要 有:关键帧提取、图像特征提取、图像特征的相似性度量、 查询方式、以及视频片段匹配等方法。 视频检索是一门交叉学科,以图像处理、模式识别、 计算机视觉、图像理解等领域的知识为基础,从认知科学、 人工智能、数据库管理系统及人机交互,信息检索等领域, 引入媒体数据表示和数据模型,从而设计出可靠、有效的检 2 索算法,系统结构以及友好的人机界面。
12
图 2-3 RGB颜色模型图
2-4 HSV颜色模型
13
2.3 视频关键帧的提取
镜头通常是在一个场景下拍摄的,所以一个镜头下的各帧图像会有 相当多的重复信息。因此,通常选取能够描述镜头主要内容的帧,作为 关键帧,来简洁的表达镜头。一个镜头可以有一个或多个关键帧,这取 决于镜头内容的复杂程度。 提取关键帧的目的有两个方面:(1)静态表示视频节目的主题和 主要内容,而不是动态的细节。(2)从关键帧中提取颜色、纹理和形状 特征,以作为视频摘要和数据库索引的数据源,而不需要对每个画面都 重复。因此,关键帧应该具有代表性,不仅应代表主题方面的特征,还 应该视特征的不同而不同。因此,对关键帧的选取一般采用保守原则, 即“宁多勿少”。同时,在代表特征不具体的情况一下,一般去掉重复 (或冗余)帧。当选取多幅关键帧时,用于关键帧选取的准则是优先考虑 关键帧之间的不相似性,即以帧之间相似度作为衡量依据,每次寻找关 键帧都保证各关键帧之间具有最小相似度,以使关键帧带有最大信息量。 下面介绍关键帧提取的经典方法——基于帧平均的算法。 像素帧平均法和直方图帧平均法是关键帧提取的经典方法。由于它 们具有相同的基本思想,不同的只是选取的衡量平均值的特征,所以将 其归为一类,并统称为帧平均法。像素帧平均法是取一视频段中所有帧 的某位置上的像素值求其平均来作为比较的标准,将视频段中此位置像 素值最为接近平均值的帧,作为该视频段的关键帧。直方图帧平均法则 是选取所有帧直图的平均值作为标准,将直方图最接近平均值的帧作为 该视频段的关键帧。该算法虽然计算简单,所选取的帧也能最大程度上 接近平均值,但是对一个镜头只选取一个关键帧,不能够全面的描述其 14 内容,尤其是对内容变化较大的镜头。