图像场景分类与视频场景聚类研究综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研究现状
场景是对视频高层语义的抽象,因此场景的形成 需要对视频更多的语义理解。目前使用镜头聚类 的方法是根据一些低层特征得到的,但是低层特征 相似距离小并不一定表示镜头本身的内容相似,目 前自动完成精确场景抽象仍具有相当的难度。 目前已有算法只能对某类特定场景提取效果较好, 距离达到实际应用的要求还远得很
3
>>
4
>>
2. 分类依据 在人们对图像理解的众多语义内容中(5要素) 图像的场景包含了人们对一副图像的总体认识 而且提供了图像中对象出现的上下文环境,为进 一步识别出图像中的对象提供了基础。
>>
0
>>
1
>>
2
>>
3
>>
4
>>
图像场景定义
>>
0
>>
1
>>
2
>>
3
>>
4
>>
图像场景
所谓图像场景,我们理解为图像环境属性.目前研究 针对clean enviromental scene。 场景语义类别的定义常常是根据具体需要预先设 定的. 如图像数据库中大量图像粗分为室外/室内,城 市/乡村,海洋,森林,海岸,草原,河流,天空等等
场景聚类与分类综述
作者:小六爷
>>
0wk.baidu.com
>>
1
>>
2
>>
3
>>
4
>>
Outline
1.视频场景聚类
2. 图像场景分类
3.总结
>>
0
>>
1
>>
2
>>
3
>>
4
>>
1
>> 0 >> 1 >> 2 >> 3 >> 4 >>
1.视频场景
• 1.问题的提出 如果你想看 《新宿事件》中某一 特殊情节(日本黑帮聚 会),如果你想看足球比 赛中的进球,…… =》如何有效地管理 和处理大量视频数.(摘 要,检索,点播)
研究现状
• 一:利用图像低层特征建模 该方法主要通过 1.对图像的低层全局或区域的颜色纹理 形状等特征的提取; 2.结合有监督学习方法如SVM实现对某 些类别的场景的分类。(如户内/户外,城 市/乡村)。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
•
此类方法已经在图像和视频检索领域研 究了多年.该方法直接根据图像的低层特征 区分图像,而不用识别图像中的目标,适合差 别明显的场景分类。 对于复杂的图像场景分类效果差,推广性 差,且不能克服低层特征与高层语义之间的 鸿沟。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
Hnajalic也提出一种类似的基于镜头头动态 关联的故事单元的提取方法,也同样存在 上述问题。 其它的还有TOC(Table of Content)(时间 自适应镜头视觉相似性分组,自动确定聚类 阈值),SSG(shot similarity graph)等方 法
Hanjalic(TU Delft-代尔夫特理工大学,欧洲麻省) 研究内容涉及镜头检测,视频语义内容分析等。 Ngo Chong-wah(香港城市大学):多媒体数据挖掘, 视频内容挖掘。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
代表论文
• 电影类视频代表文章:
1.A Graph Theory for scene detection in produced video-sigir03->Zeeshan 2. On Clustering and Retrieval of Video Shots through Temporal Slices Analysis .C.W.Ngo.TMM02 3.Automated high-level movie segmentation for advanced video-retrieval systems.Hanjalic.TCSVT99 4.Scene detection in Hollywood movies and TV shows.—CVPR 2003
• 3.解决办法 视频的结构化分析 为了在场景层次上对视频浏览,首先要把视 频分割为镜头,并用关键桢表示镜头,然后在镜头 的基础上将相似的镜头聚类构成场景,最后提取 基于场景的关键帧,即可得到浏览用的视频帧。 (一个视频示例)
>>
0
>>
1
>>
2
>>
3
>>
4
>>
1.1 视频的结构化分析
• 图
视频 Video
镜头边界检测
场景 Scene 镜头聚类/镜头分类
镜头 Shot
时域特征
关键帧提取
关键帧 Key frame
空域特征 (颜色、纹理、形状)
>>
0
>>
1
>>
2
>>
3
>>
4
>>
视频的构成 Key Frame:能突出地表示镜头内容的帧。 Shot :摄像机一次连续拍摄所得的帧序列 Scene:一组语义相关的镜头集合,针对的是同一 环境下的同一批对象,(拍摄的角度和技法可能不一 样),它是一个有意义的故事单元。 (片段) Video :完整视频节目,由一系列场景组成的一 大段视频。(文档:词,句,段落,文章)
>>
0
>>
1
>>
2
>>
3
>>
4
>>
研究方法
• 1.图像场景分类分为两个步骤: 一:从图像中获得表现图像场景的图像特 征; 二:利用获得的特征设计语义分类器。 根据是否建立起图像低层特征与高层语义 之间的对应关系,目前的图像场景分类方 法又分为两种:
>> 0 >> 1 >> 2 >> 3 >> 4 >>
>>
0
>>
1
>>
2
>>
3
>>
4
>>
相关会议、刊物
• 会议
– ACM Multimedia – SPIE conf. Video communication and Image Processing (VCIP) – IEEE conf. Multimedia and Expo (ICME) – International Conference on Image and Video Retrieval (CIVR) – CVPR,ICCV – IEEE conf. Image Processing (ICIP)
0 >> 1 >> 2 >> 3 >> 4 >>
•
>>
研究现状
• 二:利用图像中层语义建模 构建中间层主题—通过检测选取图像中包含 的语义对象/兴趣区域块来帮助描述图像场景。 1.通过图像分割自动或手动标记出分割区域的类 别 2.对每个区域/对象类别构建训练样本 3.使用机器学习方法实现对对象的分类。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
场景边界检测
结构特征明显的视频:新闻,体育视频,访谈 等 一:基于规则的方法. 借助相关的领域知识或结构知识以及音视频文 本信息获得场景或故事单元,比如新闻节目的 每一个新闻条目就是一个故事单元,在内容上 描述相对独立的事件;但是该方法推广性能比 较差; 二:结合规则的基于多特征融合的统计方法。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
关键桢提取
关键桢提取:根据镜头内容的复杂程度, 选择一帧或多帧图像来表示该镜头,关键 桢提取的好坏对视频内容的分析起决定性 作用,因此是一个重要的研究内容。 目前常用方法: 基于镜头边界提取关键帧,基于图像信息 提取关键桢,基于镜头活动性提取关键帧, 基于聚类提取关键桢方法等。
>>
0
>>
1
>>
2
>>
3
>>
4
>>
1.4 难点与热点
视频语义理解标准的统一 渐变镜头的检测: 现有方法不能识别更多的复杂的渐变镜头。
低层特征与高层语义之间的鸿沟: 底层特征相似距离小并不一定表示镜头本身的内容相似.所 以基于语义相似度量是下一步研究重点. 视频内容摘要:关键桢提取算法 应用:视频内容检索,视频视频,摘要点播
>>
0
>>
1
>>
2
>>
3
>>
4
>>
研究方法现状
目前比较有名的方法有 Princeton的B.L.Yeo和M.M.Young提出时 间约束的聚类方法对镜头代表帧聚类,并 根据聚类结果的时间特性探测对话、动作 和一般故事单元。 该方法存在的问题是固定的时间约束带 来人为的误差,另外聚类时不能自动确定 合适的阈值。(层次聚类)
>> 0 >> 1 >> 2 >> 3 >> 4 >>
场景聚类
• 非结构化视频:电影,动画,该类视频 没有明显的结构特征,故事单元的提取困 难得多。
• 研究方法:镜头聚类 镜头聚类:把属于同一个场景的镜头结合 起来,形成场景,用来描述具有语义意义 的活动
>> 0 >> 1 >> 2 >> 3 >> 4 >>
>> 0 >> 1 >> 2 >> 3 >> 4 >>
视频场景
2. 问题的分析 视频浏览可以在帧,镜头的层次上进行, 也可以在场景的层次上进行,而后者则是 更高水平意义上的视频浏览,因为它是对 视频内容进行更加压缩和概括基础上的浏 览。(例如新闻条目,电影故事单元)
>>
0
>>
1
>>
2
>>
3
>>
4
>>
>>
0
>>
1
>>
2
>>
3
>>
4
>>
视频场景的定义
• 场景概念不统一 • 是指语义上相关时间上相近的一组镜头集合。 • 韦伯字典底层上描述两类 • 是视频所蕴含的高层抽象概念和语义的表达,相对 于帧,镜头等低层内容。表达了一个完整的符合 人们思维的语义单元。比如《美丽心灵》Nash在 酒吧里发生的一系列事件;奥巴马出访中国 (可能 包括机场迎接,人民大会堂接见,参加晚宴等).
• 刊物
– IEEE Trans. Circuits and Systems for Video Technology – IEEE Trans. on Multimedia – IEEE Trans. Image Processing – TRECVID Workshop – Computer Vision and Image Understanding
>>
0
>>
1
>>
2
>>
3
>>
4
>>
2
>> 0 >> 1 >> 2 >> 3 >> 4 >>
图像场景
1.问题提出 茫茫的图像海洋中,如何寻找你要的图 片? 为实现快速浏览和检索图像,我们必须对 图像进行有效管理:如分类标注等.(如想寻找 鲨鱼的图片,不需要在森林类图片中找).
>>
0
>>
1
>>
2
>>
>> 0 >> 1 >> 2 >> 3 >> 4 >>
渐变镜头检测
二:渐变(如淡入、淡出,溶解等),表现 为镜头之间的不明显的过渡过程,因此识 别难度大.
目前已经提出的渐变镜头检测方法: 双阈值比较法,基于聚类的方法,基于 数学模型的方法,基于小波变换的方法等。 缺点:只局限于简单的渐变检测
>>
0
>>
1
>>
2
>>
3
>>
4
>>
主要研究者
• • • • A.Oliva&A.Torralba. (MIT) CSAI Laboratory(计算机科学与人工智能) Interest:scene and object recognition Publication:
Dense scene alignment using SIFT Flow for object recognition (CVPR09) Recognizing indoor scenes (CVPR09) LabelMe video: building a video database with human annotations (CVPR09) SIFT flow: dense correspondence across different scenes (Project ,ECCV08) Small codes and large databases for recognition (CVPR09)
>> 0 >> 1 >> 2 >> 3 >> 4 >>
1.2 视频结构化处理
镜头分割 关键桢提取
镜头聚类
视频重构
场景
>>
0
>>
1
>>
2
>>
3
>>
4
>>
镜头分割
一 :突变 表现为一个镜头瞬间直接切换到另 一个镜头.
比较成熟的方法方法:基于像素域的颜色 柱状图法,DCT域的DC系数法。 突变检测比较容易,检测方法比较成熟。
该方法代表人物有Fan Jianping和Luo Jiebo,Feifei Li。
>> 0 >> 1 >> 2 >> 3 >> 4 >>
• 代表文章:A bayesian hierarchical model for learning natural scene categories.(CVPR05) • 利用图像的中层语义建模是目前图像场景分类的 研究热点和主流。 • 它可以有效弥补复杂场景和高层语义之间的鸿沟
>> 0 >> 1 >> 2 >> 3 >> 4 >>
示例:美丽心灵和终结者II
使用SSG(镜头相似图)方法进行场景分割的结果
>>
0
>>
1
>>
2
>>
3
>>
4
>>
1.3 研究者介绍
• Big guy:
Zeeshan (CV-lab@UCF) 与Bede Liu 及其学生 M.M.Yeong等(Princeton University ) :电影类,采访 类视频分割,视频监控等