基于内容的视频检索[优质PPT]
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
二、国内外研究现状:国外
已经研发出多个基于内容的视频检索系统。 IBM公司的QBIC系统 意大利Plermo大学开发的JAKOB 美国哥伦比亚大学研究实现VideoQ系统 Virage公司的Virage Search Engine 美国哥伦比亚大学图像和高级电视实验室开发
12
场景(Scene):由一些内容相近的镜头 组成,不一定在时间上连续。
从不同的角度描述同一个事件。 场景描述了一个独立的故事单元,它是
一段视频的语义组成单元。
13
视频序列(Video):由许多场景组成, 叙述一个完整的故事结构
相同的场景经过聚类后形成视频序列 视频的最高语义就是视频序列
18
基于内容的视频处理
从所有的帧中提取主要内容,并从下至 上地对视频内容进行结构化描述。
为了实现这个目标,我们须对视频进行 如下处理:视频切分、特征提取和视频 内容组织等。
处理过程如下:
19
动态特 征
图2 基于内容的视频处理过程
静态特 征
20
基于内容的视频检索步骤: 1.将视频序列分割为镜头 2.在镜头内选择关键帧 3.提取镜头的特征及关键帧的视觉特
2
人们总是希望可以直接检索到一段包含 特定信息的视频片段。
足球比赛中的射门镜头、含有日出景色 的片段
3
二十世纪九十年代以来,出现了基于内 容的视频分析和检索研究,其目的就是 通过对视频内容进行计算机处理、分析 和理解,建立结构和索引,以实现方便 有效的视频信息获取
基于内容的视频分析与检索研究从一开 始就得到了广泛的重视并取得了丰硕的 研究成果。
自动提取并描述视频的特征和内容
8
目前,基于内容的视频检索研究,除了 识别和描述图像的颜色、纹理、形状和 空间关系外,主要的研究集中在视频分 割、特征提取和描述(包括视觉特征、 颜色、纹理和形状及运动信息和对象信 息等)、关键帧提取和结构分析等方面
9
四、视频结构的分析
帧/镜头/场景/视频序列 帧(Frame):视频数据的最小单元,是
一副静止的单幅影像画面,相当于电影 胶片上的每一格镜头。在时间轴上帧表 现为一格或一个标记。 视频可以看做是一个连续静态图像的序 列,其中的每一幅静态图像称为一帧。
10
镜头(Shot):代表一个场景中在时间 上和空间上连续的动作,是摄像机的一 次操作所记录下来的一段连续的帧序列, 只能拍摄相邻地点连续发生的事情。
征存入视频数据库
21
五、关键技术
视频镜头检测技术 关键帧提取技术 视频特征提取技术 镜头聚类和场景提取 视频浏览和检索
22
5.1视频镜头检测技术
对视频建立索引,首先要将视频分割为 镜头
镜头检测的关键是确定从镜头到镜头的 转换处,并利用镜头之间的转换方式找 到镜头图像之间的差别
26
模板匹配法(对应像素法)
将两帧图像对应象素差的绝对值之和作 为帧间差,如果前后两帧的帧间差变化 超出某个阈值,则认为有镜头的切换。
的VisualSeek系统 由UIUC开发的MARS
5
国内外研究现状:国内
微软亚洲研究院的张宏江博士所带领的 小组研制出Ifind信息检索系统
国防科技大学多媒体研究开发中心研制 开发的NewVideoCAR
国防科技大学系统工程系研制开发的 MIRC
清华大学开发TV-FI系统
6
值得一提的是MPEG- 7,即“多媒体内容描述 接口”(Multimedia Content Description Interface),作为MPEG组织提出的新标准, 其目标就是制定一组标准的描述符及其描述模 式(定义描述子的结构和相互关系),内容描 述与媒体内容结合,使用户能够快速准确地进 行检索,这也注定了其在未来通用的视频检索 中将扮演主要角色、发挥重要的桥梁作用。
问题的引入
国内外研究现状
基于内容的视频检索简介
视频结构的分析
wenku.baidu.com
1
一、问题的引入
近年来,数字视频信息出现了飞速膨胀, 新的视频应用,如数字图书馆、视频点 播、数字电视等,已经为越来越多的人 所接受和熟悉。
面对海量的视频数据,如何找到所需的 视频信息就成为了一个急需解决的问题。
任何一段视频数据流都是由许多镜头组 成的,镜头是视频数据的基本组成单元
11
关键帧:相当于二维动画中的原画。指 角色或者物体运动或变化中的关键动作 所处的那一帧。
一幅能描述镜头主要内容的帧。根据内 容复杂度,一个镜头可以有一个或多个 关键帧
关键帧与关键帧之间的帧称为过渡帧或 者中间帧。
镜头的切换方式有两种:突变和渐变
23
镜头切换方式:突变切换
突变是指从一个镜头直接切变到另一个镜头
24
镜头切换方式:渐变切换
渐变是指从一个镜头慢慢切变到另一个镜 头
25
常用的镜头检测方法主要有以下几种:
基于像素的镜头检测方法
1.模板匹配法(对应像素法) 2.直方图法
基于边缘的方法 基于模型的方法
7
三、基于内容的视频检索简介
我们需要研究的是,信息检索系统如何适当 地表达用户所要求的内容,并在视频数据库 中找出符合这个查询要求的信息返回给用户。
Content-Based Video Retrieval,CBVR 根据视频的内容和上下文关系,对大规模视频
数据库中的视频数据进行检索 提供这样一种算法:在没有人工参与的情况下,
层中每一个视频层次的数据都可以用一定的属 性加以描述。
如:视频序列的属性,主要包括场景的个数和 持续时间;场景的属性,包括标题、持续时间、 镜头数目、开始镜头、结束镜头等;镜头的属 性,包括持续时间、开始帧号、结束帧号、代 表帧集合、特征空间向量等;帧的属性,帧有 大量的属性,包括直方图、轮廓图、DC及AC 分量图等。
14
非结构化:除了存在时间上的先后关系 外,其本身并不具有任何结构信息
为了实现基于内容的视频检索,必须为 视频建立不同层次的结构索引,并进一 步为视频的检索和浏览提供基本访问单 元
15
视频数据从结构上自顶向下可分为视频 序列、视频场景、镜头和帧
一段视频的典型结构如图1所示
16
17
二、国内外研究现状:国外
已经研发出多个基于内容的视频检索系统。 IBM公司的QBIC系统 意大利Plermo大学开发的JAKOB 美国哥伦比亚大学研究实现VideoQ系统 Virage公司的Virage Search Engine 美国哥伦比亚大学图像和高级电视实验室开发
12
场景(Scene):由一些内容相近的镜头 组成,不一定在时间上连续。
从不同的角度描述同一个事件。 场景描述了一个独立的故事单元,它是
一段视频的语义组成单元。
13
视频序列(Video):由许多场景组成, 叙述一个完整的故事结构
相同的场景经过聚类后形成视频序列 视频的最高语义就是视频序列
18
基于内容的视频处理
从所有的帧中提取主要内容,并从下至 上地对视频内容进行结构化描述。
为了实现这个目标,我们须对视频进行 如下处理:视频切分、特征提取和视频 内容组织等。
处理过程如下:
19
动态特 征
图2 基于内容的视频处理过程
静态特 征
20
基于内容的视频检索步骤: 1.将视频序列分割为镜头 2.在镜头内选择关键帧 3.提取镜头的特征及关键帧的视觉特
2
人们总是希望可以直接检索到一段包含 特定信息的视频片段。
足球比赛中的射门镜头、含有日出景色 的片段
3
二十世纪九十年代以来,出现了基于内 容的视频分析和检索研究,其目的就是 通过对视频内容进行计算机处理、分析 和理解,建立结构和索引,以实现方便 有效的视频信息获取
基于内容的视频分析与检索研究从一开 始就得到了广泛的重视并取得了丰硕的 研究成果。
自动提取并描述视频的特征和内容
8
目前,基于内容的视频检索研究,除了 识别和描述图像的颜色、纹理、形状和 空间关系外,主要的研究集中在视频分 割、特征提取和描述(包括视觉特征、 颜色、纹理和形状及运动信息和对象信 息等)、关键帧提取和结构分析等方面
9
四、视频结构的分析
帧/镜头/场景/视频序列 帧(Frame):视频数据的最小单元,是
一副静止的单幅影像画面,相当于电影 胶片上的每一格镜头。在时间轴上帧表 现为一格或一个标记。 视频可以看做是一个连续静态图像的序 列,其中的每一幅静态图像称为一帧。
10
镜头(Shot):代表一个场景中在时间 上和空间上连续的动作,是摄像机的一 次操作所记录下来的一段连续的帧序列, 只能拍摄相邻地点连续发生的事情。
征存入视频数据库
21
五、关键技术
视频镜头检测技术 关键帧提取技术 视频特征提取技术 镜头聚类和场景提取 视频浏览和检索
22
5.1视频镜头检测技术
对视频建立索引,首先要将视频分割为 镜头
镜头检测的关键是确定从镜头到镜头的 转换处,并利用镜头之间的转换方式找 到镜头图像之间的差别
26
模板匹配法(对应像素法)
将两帧图像对应象素差的绝对值之和作 为帧间差,如果前后两帧的帧间差变化 超出某个阈值,则认为有镜头的切换。
的VisualSeek系统 由UIUC开发的MARS
5
国内外研究现状:国内
微软亚洲研究院的张宏江博士所带领的 小组研制出Ifind信息检索系统
国防科技大学多媒体研究开发中心研制 开发的NewVideoCAR
国防科技大学系统工程系研制开发的 MIRC
清华大学开发TV-FI系统
6
值得一提的是MPEG- 7,即“多媒体内容描述 接口”(Multimedia Content Description Interface),作为MPEG组织提出的新标准, 其目标就是制定一组标准的描述符及其描述模 式(定义描述子的结构和相互关系),内容描 述与媒体内容结合,使用户能够快速准确地进 行检索,这也注定了其在未来通用的视频检索 中将扮演主要角色、发挥重要的桥梁作用。
问题的引入
国内外研究现状
基于内容的视频检索简介
视频结构的分析
wenku.baidu.com
1
一、问题的引入
近年来,数字视频信息出现了飞速膨胀, 新的视频应用,如数字图书馆、视频点 播、数字电视等,已经为越来越多的人 所接受和熟悉。
面对海量的视频数据,如何找到所需的 视频信息就成为了一个急需解决的问题。
任何一段视频数据流都是由许多镜头组 成的,镜头是视频数据的基本组成单元
11
关键帧:相当于二维动画中的原画。指 角色或者物体运动或变化中的关键动作 所处的那一帧。
一幅能描述镜头主要内容的帧。根据内 容复杂度,一个镜头可以有一个或多个 关键帧
关键帧与关键帧之间的帧称为过渡帧或 者中间帧。
镜头的切换方式有两种:突变和渐变
23
镜头切换方式:突变切换
突变是指从一个镜头直接切变到另一个镜头
24
镜头切换方式:渐变切换
渐变是指从一个镜头慢慢切变到另一个镜 头
25
常用的镜头检测方法主要有以下几种:
基于像素的镜头检测方法
1.模板匹配法(对应像素法) 2.直方图法
基于边缘的方法 基于模型的方法
7
三、基于内容的视频检索简介
我们需要研究的是,信息检索系统如何适当 地表达用户所要求的内容,并在视频数据库 中找出符合这个查询要求的信息返回给用户。
Content-Based Video Retrieval,CBVR 根据视频的内容和上下文关系,对大规模视频
数据库中的视频数据进行检索 提供这样一种算法:在没有人工参与的情况下,
层中每一个视频层次的数据都可以用一定的属 性加以描述。
如:视频序列的属性,主要包括场景的个数和 持续时间;场景的属性,包括标题、持续时间、 镜头数目、开始镜头、结束镜头等;镜头的属 性,包括持续时间、开始帧号、结束帧号、代 表帧集合、特征空间向量等;帧的属性,帧有 大量的属性,包括直方图、轮廓图、DC及AC 分量图等。
14
非结构化:除了存在时间上的先后关系 外,其本身并不具有任何结构信息
为了实现基于内容的视频检索,必须为 视频建立不同层次的结构索引,并进一 步为视频的检索和浏览提供基本访问单 元
15
视频数据从结构上自顶向下可分为视频 序列、视频场景、镜头和帧
一段视频的典型结构如图1所示
16
17