基于内容的视频检索
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于内容的视频检索
曹亚光
(北京理工大学现代远程教育学院,北船院,计算机专升本2001级,2001023011076)
摘要:视频检索有着广泛的应用和广阔的发展前景,是当前多媒体研究领域的热点。系统地介绍了基于内容的视频检索的一般实现步骤。从分析基于内容的视频检索的系统结构出发,全面地探讨了系统中所涉及的视频结构的构造、镜头切变检测技术、关键帧提取技术、从视频流中构造场景或组的技术、特征提取技术以及视频检索、浏览和检索反馈技术,重点分析了其中一些关键技术中各种实现方法的优缺点,并介绍了一些新的技术方法。最后提出了一些需要进一步研究的问题。
关键词:视频数据库,基于内容,视频检索,镜头切变检测,关键帧提取,特征提取,检索反馈
1 前言
随着多媒体技术和网络技术的飞速发展,视频在多个领域得到广泛地应用。对这些海量的而且包含大量非结构化信息的数据进行组织、表达、管理、查询和检索成为迫切的需求。因此基于内容的视频检索(Content-Based Video Retrieval,CBVR)成为近年来研究的热点。
基于内容的视频检索系统如图1所示。
图1 基于内容的视频检索系统框图
首先要进行视频结构分析,将视频序列分割为镜头,并在镜头内选择关键帧,这是实现一个高效的CBVR系统的基础和关键。然后提取镜头的运动特征和关键帧中的视觉特征,作为一种检索机制存入视频数据库。最后根据用户提交的查询按照一定特征进行视频检索,将检索结果按相似性程度交给用户,当用户对查询结果不满意时可以优化查询结果,自动根据用户的意见灵活地优化检索结果。
2 视频结构的构造及有关的算法
为了对视频数据库进行基于内容的查询,首要要构造便于检索的视频结构。视频数据可以按照由粗到细的顺序划分为四个层次结构:视频(Video)、场景( Scene)、镜头(Shot)和图像帧(Frame)。
镜头是视频数据的基本单元,它代表一个场景中在时间上和空间上连续的动作,是摄像机的一次操作所摄制的视频图像,任何一段视频数据流都是由许多镜头组成的。
镜头的切换有两种:突变和渐变。突变是指从一个镜头直接切变到另一个镜头;而渐变根据视频编辑手法的不同可以分为3种:淡化(Fade,又细分为Fade in和Fade out)、融化(Dissolve)和滑变(Wipe)。渐变是切变检测中的难点。
整个视频结构构造过程分以下三个步骤:从视频流中提取镜头、从镜头中选择关键帧和从视频流中构造场景或组。
2.1 从视频流中提取镜头(即对视频流的切变检测)
镜头是视频数据的基本单元,视频处理首先就需要把视频自动地分割为镜头,以作为基本的索引单元,这一过程就称为镜头边界的检测。它是实现基于内容的视频检索的第一步,其核心处理是镜头切变检测。
视频结构的构造中,镜头切变检测是重点,而且其算法和思想可用于其它步骤,故应重点研究。
2.1.1 基于颜色特征的方法
(1) 模板匹配法(对应像素法)
模板匹配法是将两帧对应像素差的绝对值之和作为帧间差,当帧间差大于某个
阈值t时,则认为有镜头的切换。模板匹配法的缺点是,由于与像素的位置密切相关,因此对噪声和物体运动十分敏感,容易造成误识别。张宏江等人[3]提出将各帧划分为8×8像素的子块,并对每个块取平均,再用这个平均值对前后帧的对应子块进行比较,这种方法对小的噪声和运动不敏感。
(2) 直方图法
直方图法是使用得最多的计算帧间差的方法,它丢失了颜色的位置信息,因而抗噪声能力要比模板匹配强。颜色直方图法的缺点是,两幅图像可能内容完全不同但直方图相似,也容易造成误识别。一种改进的方法是将图像划分成若干子块分别对各子块进行匹配。A. Nagasaka和Y. Tanaka[4]提出了一种将视频帧划分为4×4相同大小的子块并比较相应子块的方法。其它改进方法还有X2直方图匹配法[5]和Swanberg等人[6]采用的模板匹配法和直方图匹配法相结合的方法。
2.1.2 基于边缘的方法
由于在镜头切变时新旧边缘应在不同的位置,所以可先提取两幅图像的边缘,计算新边缘在旧边缘的基础上增加和减少像素比例,当大于某一个阈值时便认为发生镜头切换。缺点是计算量大,当边缘不明显时效果差。
2.1.3 光流检测法
张宏江等人[3]还提出了光流检测法,该方法的原理是镜头切换时无光流,而镜头运动应适合某种特定的光流类型。它能将渐变切换与镜头的运动区分开来,但计算复杂且在光照变化很大情况下检测失败。
2.1.4 基于模型的方法
Hampapur等人[7,8]通过对视频制作过程的研究,提出了一种可用于镜头边界检测的视频编辑模型。它的缺点是,建模过程比较复杂,需要对每种切换类型建立模型。这种方法适用于专业领域。
2.1.5 压缩域的方法
由于越来越多的视频数据是以压缩的形式保存,因此,最好能直接在压缩域中进行边界检测。
(1) DC系数法
DC 图像是原图像8×8的平均,它包含了原图像的基本全局信息,且具有压缩性
处理过程更加快捷的特点。可以先从各帧中提取DC图像,再用帧间差的方法进行检测。
(2) 运动矢量法
张宏江等人[3]根据统计发现镜头转换处的BP帧中有效运动向量个数较少,因此可以对这些帧进行解压,用非压缩视频的边界检测方法进行镜头边界检测。
文献[9]中从视频流中提取宏块的运动矢量,宏块的相似度与它们的运动矢量成反比,帧的相似度由各宏块的相似度取平均求得。文献[10]中将各帧的类似度进行了归一化,(公式)结果是多帧类似度加权相加的结果,可以取比较简单的门限进行判断,减少了计算复杂度,多帧加权减小了误检,但对渐变检测效果不佳。
这类方法的缺点是,目前的MPEG算法是面向数据压缩的,而不是面向视频内容表示的。随着基于内容的编码标准MPEG-4和多媒体数据内容表示MPEG-7成为国际标准后,上述问题将得到解决。
(3) 模糊查找法
一种方法是只用视频流中的I帧进行检测,它适用于检测精度不是很高的需求;另一种方法是先找出差异大的相邻两个I帧作为可能存在镜头切换处,再用两帧间的B和P帧确定准确位置,这种方法精度较高。两种方法均受编码算法优劣的影响。
2.1.6 几种改进的算法
张宏江等人[3]提出了双阈值比较法。当两帧间差在阈值d
1和d
2
之间时,便认为潜
在渐变开始,将差值开始累加,直到累加和大于d
2时认为有渐变,当帧间差小于d
1
时认为渐变结束。这种方法对渐变检测有较好的效果,但对镜头的缓慢运动仍可能会造成误识别。
Yeo B L[11]提出了一种滑动窗口检测法。先以待检的帧作为中心开一个窗,计算各帧与邻帧的帧间差,若该帧的差值大于窗口内的其它所有帧的差值,且大于第二大差值的某倍数,则认为是发生切换。
用双重窗口法[12]可进一步改进以减小搜索量,先选取一个大的窗口,取平均值,将大于均值一定倍数的差值作为候选切变帧,再以候选切变帧为中心取小窗口,检测具体位置。大窗口可避免误检并减小搜索量;小窗口可避免大运动造成的漏检。
由于在很多情况下,人们仅对图像中的某一区域感兴趣。因此,先进行图像分