基于内容的视频检索的关键帧提取_陆伟艳
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
视频关键帧提取的算法一般可以分为静态关键帧提取和
动 态 关 键 帧 提 取 两 种 。静 态 关 键 帧 提 取 一 般 只 适 合 于 静 止 的 镜
头 。动 态 关 键 帧 提 取 则 是 根 据 镜 头 内 视 频 帧 之 间 的 变 化 程 度 来
动态地将镜头分割成镜头, 进而对每个分镜头选取关键帧。在
值合并类, 从中找出一个类的最大互信息量和最小互信息量,
再找出一个接近类的互信息量的平均值, 然后计算类中的每一
技 帧之 间 的 互信 息 量 的大 小, 并 进行 比 较 , 找出 最 大 值和 最 小 值 。
如果一个类中的最大帧和最小帧间差大于每帧率的一半, 则选
术 取 最大 和 最 小的 两 个 帧作 为 关 键帧 , 或 者 以各 类 中 的最 大 帧 和
(14)
那么, 总的互信息量可表示为:
(15)
3.2 关键帧提取
取一段帧数为 的镜头
, 令镜头
中的互信息量为
。要找出镜头中的
内容明显变化, 需要先计算出这个镜头中互信息量的标准差
图 1 《倒霉爱神》视频片断提取的部分镜头关键帧框图 实验表明, 互信息提取关键帧的方法能较准确地反映相似 性且镜头中没有遗漏关键帧, 但有少量的冗余。 表 1 是分别采用基于互信息量的算法和视频聚类法对一 些 镜 头 内 容 变 化 较 大 的 动 画 片 、广 告 片 、动 作 片 和 镜 头 内 容 变
(1.桂林电子科技大学;2.武汉理工大学)陆 伟 艳 1 夏 定 元 2 刘 毅 1
LU WEIYAN XIA DINGYUAN LIU YI
摘要:关 键 帧 提 取 是 基 于 内 容 的 视 频 检 索 中 的 一 个 重 要 技 术 。本 文 在 总 结 前 人 的 工 作 基 础 上 , 提 出 了 一 种 利 用 视 频 帧 之 间 互
信 息 量 算 法 来 提 取 关 键 帧 的 方 法 。该 方 法 结 合 两 个 连 续 图 像 帧 的 特 征 互 信 息 量 的 变 化 关 系 来 提 取 关 键 帧 , 并 与 视 频 聚 类 的
关 键 帧 提 取 方 法 进 行 了 比 较 。实 验 结 果 表 明 , 利 用 该 方 法 提 取 的 关 键 帧 能 较 好 地 代 表 镜 头 内 容 且 提 取 关 键 帧 的 速 度 比 视 频
聚类的关键帧提取方法快。
关键词:关键帧;图像特征;视频聚类法;互信息量
中图分类号: TP311.134
文献标识码 B
Abstr act:Key frame extraction based video retrieval is an important technology. In this paper, based on the work of our predecessors,
确定性的大小。换言之, 此时互信息反映当 X 确定时, Y 的不确
定同时减少的量的大小, 即信息 Y 包含信息 X 的总量。由于 X
和 Y 可以互换,
也表示信息 X 包含信息 X 的总量, 因
此, 信息是相互的。
现计 算 在两 个 连 续帧 里 的 每 个 RGB 元 素 的 互 信 息 量 。 假
所有现存聚类质心间的距离均大于 T, 则 以 为质 心 形 成一
个新聚类。否则, 将
加入到与之相似度最大的聚类中, 使
该帧与这个聚类的质心之间的距离最小, 并且对该聚类质心作
如下调整:
(1)
其中
、
和 分 别 是 聚 类 原 有 质 心 、聚 类 更
新后质心和该聚类中的帧数。
在文献中, 提出了一种利用颜色直方图分簇提取关键帧的
图像处理 文章编号:1008- 0570(2007)11- 3- 0298- 03
中 文 核 心 期 刊 《 微 计 算 机 信 息 》( 管 控 一 体 化 )2007 年 第 23 卷 第 11-3 期
基于内容的视频检索的关键帧提取
An Ap p ro a ch o f Ke y Fra m e Extra ctio n Ba s e d o n Mu tu a l In fo rm a tio n
其中,
为点
的密度概率函数。对于随机
变量 X 和 Y, 在已知 X 条件 Y 的熵可以写为
,即
其中,
为条件概率。
表示在已知 X 时
的 Y 条件熵。它是通过测量一个变量和已知另一个变量来获得
的信息量, 被用于求解两个场景数据之间的函数关系。条件熵
有以下的性质:
(5)
(6)
(7)
随机变量 X 和 Y 的互信息量(MI):
动态关键帧提取中, 视频运动大的镜头选取的关键帧多, 而运
动 、变化 小 的 镜头 选 取 的关 键 帧 少。基 于 视 频聚 类 法 的关 键 帧
提取方法是其中一种典型方法。下面, 分析该方法的技术特点,
介绍我们提出的一种基于互信息量算法的关键帧提取方法, 并
将这两种方法进行比较。
2 视频帧聚类法
比较互信息算法和视频聚类法的关键帧提取结果, 可以得出 如下结论:
(1)在 背 景 变 化 较 大 的 视 频 中(如 动 画 片 、广 告 片 、动 作 片), 采用互信息算法所提取的关键帧没有遗漏, 但有少量冗余, 而 采用视频聚类法却存在遗漏。
(2)在 背 景 变 化 不 大 的 视 频 中(如 生 活 片), 两 种 方 法 所 得 到 的关键帧区别不大且都能较准确地反映镜头的内容。但是, 本 文提出的互信息量法比视频聚类法在关键帧提取速度上有了 明显的改善。
a video frame mutual information between the key frame extraction algorithm. The combination of two consecutive image frame the re-
lationship between the characteristics of mutual information to extract key frame, Video clustering and key frame extraction methods
《P LC 技术应用 200 例》
邮局订阅号: 82-946 360 元 / 年 - 299 -
图像处理
中 文 核 心 期 刊 《 微 计 算 机 信 息 》( 管 控 一 体 化 )2007 年 第 23 卷 第 11-3 期
化不大的生活片提取关键帧的比较结果。 表 1 互信息算法和视频聚类法提取关键帧的比较结果
方法。试验结果表明, 此方法对相似性和连续性反映准确, 鲁棒
性表现在大物体的快速运动上, 镜头中的关键帧没有遗漏但还
有 少 量 的 冗 余 。此 外 该 方 法 的 不 足 之 处 在 于:合 并 阈 值 的 选 取 需
要多次测试, 并且在提取关键帧的速度上还有待提高。因此, 本
文在总结前人的工作基础上, 提出了一种基于互信息量算法的
术 Key wor ds: key fr ame, image featur e, video cluster ing, mutual infor mation
创 1 引言
新
随着计算机网络技术和多媒体技术的快速发展, 视频数据
大 量 的 增 长 和 使 用 , 例 如 , 数 字 视 频 点 播 系 统 (Video On De-
,其中 为首帧, 为尾帧。根据某
个图 像 特征(例 如 颜色 直 方 图), 定 义 两 帧之 间 的 相似 度 , 相 似度
通常取为距离函数, 并预先设置一个相似度阈值, 以控制聚类
的密度。
计算当前帧 与现存某个聚类质心间的距离, 如果大于
阈值 T, 则该帧与聚类之间距离较大, 不能加入该聚类; 如果 与
频帧图像的大量的像素来分开来的。根据互信息量定义, 得到
由帧 到 帧中的 G 元素的互信息量, 可表示为
, 并将
与预测的阈值 比较, 如果
, 则认为
这个镜头中的内容没有明显的变化, 因此可以认为镜头中的任
何一帧图像都可以代表镜头中的内容。这种情况下, 通常取第
一帧或中间的帧和最后一帧作为该镜头的关键帧。
在内容变化很大的视频镜头中, 镜头需要较多的关键帧来
描述, 可以通过分簇聚类的办法来处理。视频镜头中的互信息
量分簇为
, 其中 K 为经过分簇聚类算法得到的聚类数。
阈值参数 为是由建立帧聚类数的决定值。首先, 所有的互
信息量表示为
。此 时 的 将 标 准 差 为
的值和阈值 做比较, 如果超过了阈值, 即
头分割, 即在时域间视频序列按照一定的标准分割为镜头
(Shot), 然 后 在 各 个 镜 头 中 提 取 关 键 帧(Key Frame), 也 称 为 代 表
帧。通过关键帧的提取, 可以用很小的数据量把一个镜头的静
态特性表示出来, 从而在视频检索中大大地减少数据量。因此,
关键帧提取技术是基于内容视频检索的一个重要处理环节。
关键帧提取方法, 它能够改善基于视频聚类法的一些不足。
3 互信息量算法的关键帧法
3.1 互信息
假设 X 为一组输出的随机变量,
概率为
, 其中
则熵为
的
且
,
(2)
- 298 - 3百度文库0元 / 年 邮局订阅号: 82-946
《现场总线技术应用 200 例》
您的论文得到两院院士关注
图像处理
而 (x,y)的 联 合 熵 表 示 为 (3)
, 那么所
有的互信息量可分为两个类, 即
和
。 这样一直
做递归, 直到两个连续的类的互信息量比阈值 小, 然后再将
这些类合并。要检测这些连续的类是否可以合并, 则如果两个
连续类的标准差小于阈值 , 那么就将这些簇类合并起来。经
过利用互信息量来将视频镜头里所有的帧图像分为多个簇类
之后, 仅在这些聚类中有足够的帧数被认为关键聚类。根据阈
设 视 频序 列 的 灰 度 级 别 的 变 换 是 从 0 ̄N- 1, 从 帧 到 帧
传输, 它们的灰度级别信息可建立三个
的矩阵
,
和
。元素 G 的矩阵为
,
且
, 对应于帧 中的某个像素灰阶 i 和帧
中
的某个像素灰阶 j 的概率。也就是说,
是帧 中
多个像素灰阶 到帧 中多个像素灰阶 j 的概率, 是通过视
最小帧间差小于每帧率的一半, 就选取最接近类平均的那帧作
创 为 关键 帧 。在 此采 用 了 公式(15)来 计 算连 续 帧 之间 的 颜 色改 变
的互信息量。
4 实验结果与分析
新
为了验证本文提出方法的有效性, 我们进行了大量实验。 实验结果如图 1 和表 1 所示。
图 1 是 采 用本 文 提 出的 基 于 互信 息 量 算法 对 《倒 霉 爱 神 》 的 视 频 片 断 进 行 关 键 帧 提 取 所 获 得 的 关 键 帧 框 图 。本 方 法 避 免 了文献中合并阈值的选取需要多次测试的麻烦。
互信息是统计两个随机变量相关性的测度, 它具有如下属
性:
非负性:
(9)
独立性:
(10)
对称性:
(11)
随机变量 X 和 Y 的互信息和联合熵的关系可以表示为:
(12)
其中,
和
分别为 X, Y 的边界熵。
互信息可以通过它们的熵和联合熵来定义:
(13)
这表明, 变量 X 的不确定性大小减去当 Y 已知时 X 的不
视频帧聚类法采样聚类有效性分析的分割聚类算法, 所得 到的聚类在聚类内和聚类间距离量度上是最优的, 最靠近聚类
陆伟艳: 硕士研究生 基金项目:广西科学研究与技术开发计划项目 (桂科能 05112001- 7A2);广西科学基金项目(桂科基 0342046)
中心的一帧被选为关键帧。
设某个镜头 包含 n 个图像帧, 可以表示为:
mand)和数字图书馆 DL(Digital Library)。近 年 来 , 如何 开 发 一个
高 效 、快 速 、便 捷 的 视 频 检 索 系 统 已 经 成 为 信 息 科 学 领 域 研 究
者们关注的问题, 尤其是基于内容的视频检索技术已经成为国
内外研究的热点问题。
目前研究的基于内容的视频检索系统, 一般都是先进行镜
技 are compared. The experimental results show that the key frame extraction algorithm captures the visual content of the shot better
than the method of video clustering, and also can faster to extract key frames.