视频检索技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
下面对视频检索的原理进行简要的介绍。 2.基于内容的视频检索
基于内容的视频分析和检索研究的目的是通过对视频内容进行 计算机处理、分析和理解,建立结构和索引,以实现方便有效的 视频信息获取。它是根据视频的内容以及上下文关联,在大规模 视频数据中进行检索。基于内容的视频检索包括很多技术,如: 视频结构的分析 ( 镜头检测技术 ) 、视频数据的自动索引和视频聚 类等。 目前,在基于内容的视频检索技术的研究方面,除了识别和描 述图像的颜色,纹理,形状和空间关系外,其他主要集中在视频 镜头分割,特征的提取和描述(包括:视觉特征,颜色,纹理和形 状及运动信息和对象信息等),关键帧提取和结构分析等方面。基 于内容的视频检索的系统框图见下图。
5
基于内容的视频检索的系统框图 如下:
6
2.1 视频帧提取
视频检索的目的就是要从大量的视频数据中找到所需的视频片段。 视频数据是一个二维非结构化的图像序列,要实现基于内容的视频 检索,首先要从多媒体文件中提取视频帧序列,然后对这些图像流 进行处理,使之成为结构性的数据,提取其特征,从而达到检索目 的。 首先,介绍几个关于视频的基本概念。帧(Frame) :视频流中的 基本组成单元,每一帧均可看成是一幅独立的图像。视频流数据就 是由连续图像帧构成的。帧是视频的最小单位。镜头(Shot):摄像机 拍下的不间断帧序列,是视频数据流进一步结构化的基础。同一组 镜头中,视频帧的图像特征基本保持稳定。若相邻图像帧之间的特 征 发 生 了 明 显 变 化 , 则 认 为 是 发 生 了 镜 头 变 换 。 关 键 帧 ( Key Frame ):关键帧是代表镜头内容的图像帧。在一个视频镜头内, 关键帧的数目远小于镜头所包含的图像帧的数目。用关键帧代表镜 头可以大大减小计算复杂性。场景 (Scene): 语义上相关和时间上相 邻的若干组镜头组成了一个场景。场景是视频所蕴涵的高层抽象概 念和语义的表达。像镜头可以由关键帧代表一样,场景也可以使用 属于这个场景的所有镜头所对应的关键帧集合来表示。
目前,国内外已研发出了多个基于内容的视频检索系统, 主要有五种,如下:
1:QBIC系统:QBIC(Query By Image Content) 是由IBM Almade n研究中心开发的,是“基于内容”检索系统的典型代表。此系统主 要利用颜色、纹理、形状、摄像机和对象运动等描述视频内容, 并以 此实现其检索。QBIC提供了对静止图像及视频信息基于内容的检索手 段, 允许用户使用例子图像、构建草图、以及颜色和纹理模式、镜头 和目标运动等信息对大型图像和视频数据库进行查询。在视频数据分 析方面包括了镜头检测、运动估计、层描述、代表帧生成等多种视频 处理手段。 2 : Visual Seek 系统: Visual Seek 是美国哥伦比亚大学电子工 程系与电信研究 中心图像和高级电视实验室共同研究的、一种在互 联网上使用的“基于内容”的检索系统。它实现了互联网上的“基于 内容”的图像/视频检索系统,提供了一套供人们在Web上搜索和检索 图像及视频的工具。
1
视频检索就是要从大量的视频数据中找到所需的视频片 段。根据所给出的例子或是特征描述,系统就能够自动的找 到所需的视频片片段。根据提交视频内容的不同,视频检索 一般分为镜头检索和片段检索。 目前视频检索的多数研究还集中在镜头检索上。而片 段检索方面的研究则刚刚开始。实际上,从用户的角度分析, 他们对视频数据库的查询通常会是一个视频片段而很少会是 单个的物理镜头。从信息量的角度分析,由几个镜头组成的 视频片段有比单个镜头更多的语义,它可以表示用户感兴趣 的事件。因此查询的结果也比较有意义。 由于视频拍摄的多样性和后期编辑的复杂性,片段的 相似性有多种可能。把片段检索分为这样两种类型:精确检 索和相似性检索。一个完整的视频检索系统的关键技术主要 有:关键帧提取、图像特征提取、图像特征的相似性度量、 查询方式、以及视频片段匹配等方法。 视频检索是一门交叉学科,以图像处理、模式识别、 计算机视觉、图像理解等领域的知识为基础,从认知科学、 人工智能、数据库管理系统及人机交互,信息检索等领域, 引入媒体数据表示和数据模型,从而设计出可靠、有效的检 2 索算法,系统结构以及友好的人机界面。
3
3 : Video Q 是由美国哥伦比亚大学研究开发的 一套全自动基于内容的视频查询系统。它扩充 了传统的关键字和主题导航的查询方法,允许 用户使用视觉特征和时空关系来检索视频。
4 : TV—FI 系 统 : TV—FI(Tsing hua Video Find It)是清华大学开发的视频节目管理 系统。该系统可提供视频数据入库、基于内容 的浏览、检索等功能 , 并提供多种数据访问模 式 , 包括基于关键字查询、示例查询、按视频 结构浏览及按用户自定义类别进行浏览等。
7
Direct Show是为播放各种类型的视频数据、音频数据或其他多媒体 数据而设计的。Direct Show支持MPEG(包括MP3、AVI、MOV、WAV、DVD等 格式)。借助于Direct Show,可以很容易地实现多种格式的多媒体数据 的回放、传输和捕获。Direct Show使用Filter Graph的模型来管理整个 数据流的处理过程。利用Direct Show强大的功能,我们可以这样实现帧 的提取。首先建立过滤器图表,与特定的多媒体流相关联,然后加视频 抓帧过滤器进图表,并设置回调函数。当图表运行时,抓帧过滤器抓取 流过的视频帧(可进行设置,可以是每一帧,也可以是间隔固定帧),把 抓取的帧存储在视频库中。 利用Direct Show 能够使开发者专注于各自的分析和处理,而无需 考虑带有共性的实现细节,极大地降低了多媒体应用开发的复杂度,并 提高了其开发效率。
视频检索技术
1. 视频检索简述
随着计算机技术和网络技术的发展,信息高速公路的建设,以 及多媒体的 推广应用, 各种视频资料源源不断地产生, 随 之建立起了越来越多的视频数据 库,出现了数字图书馆、数字 博物馆、数字电视、视频点播、远程教育、远程医疗等许多新的服务 形式和信息交流手段。 在传统的数据库系统中,信息的检索一般以数值和字符型为主, 而在多媒体数据库中集成图像、视频、音频等非格式化信息,它wk.baidu.com具 有数据量大、信息不定长、结构复杂等特点。每一种媒体数据都有一 些难以用字符和数字符号描述的内容线索,如图像中某一对象的形状、 颜色和纹理,视频中的运动,声音的音调等。当用户要利用这些线索 对数据进行检索时,首先要将其人工转化为文本或关键词形式,这种 转换带有一定的主观性,且极其费时,因而仅仅基于关键词的检索已 不能满足用户的检索要求。数据库及其它信息系统不仅要能对图像、 视频和声音等媒体进行存储以及基于关键字的检索,而且要对多媒体 数据内容进行自动语义分析、表达和检索。
下面对视频检索的原理进行简要的介绍。 2.基于内容的视频检索
基于内容的视频分析和检索研究的目的是通过对视频内容进行 计算机处理、分析和理解,建立结构和索引,以实现方便有效的 视频信息获取。它是根据视频的内容以及上下文关联,在大规模 视频数据中进行检索。基于内容的视频检索包括很多技术,如: 视频结构的分析 ( 镜头检测技术 ) 、视频数据的自动索引和视频聚 类等。 目前,在基于内容的视频检索技术的研究方面,除了识别和描 述图像的颜色,纹理,形状和空间关系外,其他主要集中在视频 镜头分割,特征的提取和描述(包括:视觉特征,颜色,纹理和形 状及运动信息和对象信息等),关键帧提取和结构分析等方面。基 于内容的视频检索的系统框图见下图。
5
基于内容的视频检索的系统框图 如下:
6
2.1 视频帧提取
视频检索的目的就是要从大量的视频数据中找到所需的视频片段。 视频数据是一个二维非结构化的图像序列,要实现基于内容的视频 检索,首先要从多媒体文件中提取视频帧序列,然后对这些图像流 进行处理,使之成为结构性的数据,提取其特征,从而达到检索目 的。 首先,介绍几个关于视频的基本概念。帧(Frame) :视频流中的 基本组成单元,每一帧均可看成是一幅独立的图像。视频流数据就 是由连续图像帧构成的。帧是视频的最小单位。镜头(Shot):摄像机 拍下的不间断帧序列,是视频数据流进一步结构化的基础。同一组 镜头中,视频帧的图像特征基本保持稳定。若相邻图像帧之间的特 征 发 生 了 明 显 变 化 , 则 认 为 是 发 生 了 镜 头 变 换 。 关 键 帧 ( Key Frame ):关键帧是代表镜头内容的图像帧。在一个视频镜头内, 关键帧的数目远小于镜头所包含的图像帧的数目。用关键帧代表镜 头可以大大减小计算复杂性。场景 (Scene): 语义上相关和时间上相 邻的若干组镜头组成了一个场景。场景是视频所蕴涵的高层抽象概 念和语义的表达。像镜头可以由关键帧代表一样,场景也可以使用 属于这个场景的所有镜头所对应的关键帧集合来表示。
目前,国内外已研发出了多个基于内容的视频检索系统, 主要有五种,如下:
1:QBIC系统:QBIC(Query By Image Content) 是由IBM Almade n研究中心开发的,是“基于内容”检索系统的典型代表。此系统主 要利用颜色、纹理、形状、摄像机和对象运动等描述视频内容, 并以 此实现其检索。QBIC提供了对静止图像及视频信息基于内容的检索手 段, 允许用户使用例子图像、构建草图、以及颜色和纹理模式、镜头 和目标运动等信息对大型图像和视频数据库进行查询。在视频数据分 析方面包括了镜头检测、运动估计、层描述、代表帧生成等多种视频 处理手段。 2 : Visual Seek 系统: Visual Seek 是美国哥伦比亚大学电子工 程系与电信研究 中心图像和高级电视实验室共同研究的、一种在互 联网上使用的“基于内容”的检索系统。它实现了互联网上的“基于 内容”的图像/视频检索系统,提供了一套供人们在Web上搜索和检索 图像及视频的工具。
1
视频检索就是要从大量的视频数据中找到所需的视频片 段。根据所给出的例子或是特征描述,系统就能够自动的找 到所需的视频片片段。根据提交视频内容的不同,视频检索 一般分为镜头检索和片段检索。 目前视频检索的多数研究还集中在镜头检索上。而片 段检索方面的研究则刚刚开始。实际上,从用户的角度分析, 他们对视频数据库的查询通常会是一个视频片段而很少会是 单个的物理镜头。从信息量的角度分析,由几个镜头组成的 视频片段有比单个镜头更多的语义,它可以表示用户感兴趣 的事件。因此查询的结果也比较有意义。 由于视频拍摄的多样性和后期编辑的复杂性,片段的 相似性有多种可能。把片段检索分为这样两种类型:精确检 索和相似性检索。一个完整的视频检索系统的关键技术主要 有:关键帧提取、图像特征提取、图像特征的相似性度量、 查询方式、以及视频片段匹配等方法。 视频检索是一门交叉学科,以图像处理、模式识别、 计算机视觉、图像理解等领域的知识为基础,从认知科学、 人工智能、数据库管理系统及人机交互,信息检索等领域, 引入媒体数据表示和数据模型,从而设计出可靠、有效的检 2 索算法,系统结构以及友好的人机界面。
3
3 : Video Q 是由美国哥伦比亚大学研究开发的 一套全自动基于内容的视频查询系统。它扩充 了传统的关键字和主题导航的查询方法,允许 用户使用视觉特征和时空关系来检索视频。
4 : TV—FI 系 统 : TV—FI(Tsing hua Video Find It)是清华大学开发的视频节目管理 系统。该系统可提供视频数据入库、基于内容 的浏览、检索等功能 , 并提供多种数据访问模 式 , 包括基于关键字查询、示例查询、按视频 结构浏览及按用户自定义类别进行浏览等。
7
Direct Show是为播放各种类型的视频数据、音频数据或其他多媒体 数据而设计的。Direct Show支持MPEG(包括MP3、AVI、MOV、WAV、DVD等 格式)。借助于Direct Show,可以很容易地实现多种格式的多媒体数据 的回放、传输和捕获。Direct Show使用Filter Graph的模型来管理整个 数据流的处理过程。利用Direct Show强大的功能,我们可以这样实现帧 的提取。首先建立过滤器图表,与特定的多媒体流相关联,然后加视频 抓帧过滤器进图表,并设置回调函数。当图表运行时,抓帧过滤器抓取 流过的视频帧(可进行设置,可以是每一帧,也可以是间隔固定帧),把 抓取的帧存储在视频库中。 利用Direct Show 能够使开发者专注于各自的分析和处理,而无需 考虑带有共性的实现细节,极大地降低了多媒体应用开发的复杂度,并 提高了其开发效率。
视频检索技术
1. 视频检索简述
随着计算机技术和网络技术的发展,信息高速公路的建设,以 及多媒体的 推广应用, 各种视频资料源源不断地产生, 随 之建立起了越来越多的视频数据 库,出现了数字图书馆、数字 博物馆、数字电视、视频点播、远程教育、远程医疗等许多新的服务 形式和信息交流手段。 在传统的数据库系统中,信息的检索一般以数值和字符型为主, 而在多媒体数据库中集成图像、视频、音频等非格式化信息,它wk.baidu.com具 有数据量大、信息不定长、结构复杂等特点。每一种媒体数据都有一 些难以用字符和数字符号描述的内容线索,如图像中某一对象的形状、 颜色和纹理,视频中的运动,声音的音调等。当用户要利用这些线索 对数据进行检索时,首先要将其人工转化为文本或关键词形式,这种 转换带有一定的主观性,且极其费时,因而仅仅基于关键词的检索已 不能满足用户的检索要求。数据库及其它信息系统不仅要能对图像、 视频和声音等媒体进行存储以及基于关键字的检索,而且要对多媒体 数据内容进行自动语义分析、表达和检索。