一种基于TextTiling的镜头边界检测算法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2． 1
提取特征并计算帧间距离
定义 1 …， fi ， …， fn ｝， f i 表示 F 的第 i 视频 F = ｛ f1 ，其中，
n 为 F 中帧的总数，即视频长度。帧，设定一个长度为 m 的滑动窗口（包含 m 帧图像），每次滑动
［11 ］ m 帧，对落入每个窗口中的帧用 PCA 方法提取特征，具体算
2
藏在复杂数据背后的主要结构。 PCA 通过对数据样本进行线性变换，求出一组正交的特征 u2 ， …，u n ， …，向量 u1 ，对应的特征值分别为 λ1 ， λ2 ， λ n （ n 表示样本总数），把特征值按大小降序排列，选取前 k（ k ＜ n）个特征值对应的特征向量组成特征子空间 Ω ，把数据样本 X 投影到 Ω 的表达式为：
k k k
1Байду номын сангаасi≤m
（ 6）
2． 2
Md j ：
确定视频边界
设视频共有 n 帧，将窗口 w j 中最大的相邻帧间距离记为 Md j = max（ D i ）（ 7）
X =
∑u
i = 1
T i
Xi
（ 1）
1 ≤ j ≤［ n / m］ + 1 ， Md j 取值大小一定程度其中 1 ≤ i ≤ m － 1 ， Md j 越大 w j 中出现镜头上反映了 w j 中出现镜头切变的可能性，切变的可能性越大。定义 2 两个相邻窗口 w j 和 w j +1 之间的深度值定义为： Depth j = Md j +1 － Md j （ 8）
，计算如下：（ 2）
depth i = （ sim i －1， i － sim i， i + 1 ） + （ sim i + 1 ， i + 2 － sim i， i +1 ）的阈值，则认为子主题发生了切换。
sim i，其中，若 depth i 大于设定 i + 1 是块 i 和块 i + 1 之间的相似度，
文献标识码
A TEXTTILINGBASED SHOT BOUNDAＲY DETECTION ALGOＲITHM
Xie Binbin Jia Xiping Fang Gang Ou Wei
（ School of Computer Science， Guangdong Polytechnic Normal University， Guangzhou 510665 ， Guangdong， China）
摘
要
镜头边界检测是基于内容的视频检索中的关键技术，提出一种利用 TextTiling 方法来识别视频镜头边界的算法。通过滑
动窗口对视频进行初步切割，利用主成分分析将视频帧投影到特征子空间，并在投影空间上计算相邻帧间距离，再根据相邻窗口之 2001 视频测试数据集的实验结果显示，该算法检测镜头边界的平均查全率和平均查准间的深度值确定视频镜头边界。针对 TＲEC率分别为 89% 和 96． 5% 。关键词中图分类号 TextTiling TP391 主成分分析镜头边界检测 A 视频检索 DOI： 10． 3969 / j． issn． 1000386x． 2016． 01． 063
［10 ］
n / m］－ 1 ， Depth j 描述了 w j 和 w j +1 之间最大帧间其中 1 ≤ j ≤ ［距的变化幅度，在一定程度上是对 w j 或 w j +1 中出现镜头切变的一种确认。 1］根据文献［取深度阈值： T = Depth + ασ Depth 的标准差，图 2 所示。 α 为常数系数。如图 1 、（ 9）其中，Depth 为所有深度值 Depth 的平均值， σ 为所有深度值
260
计算机应用与软件
2016 年
［8 ］降维方法，目前已广泛应用于人脸识别等领域。 PCA 可有效 “主要 ” 找出数据中最的元素和结构，去除噪音和冗余，揭示隐
A i 是 f i 投影到特征空间后的投影帧， f i 是第 i 帧， i = 1， 2，其中， …， m。（ 6 ）计算投影到特征空间后的相邻帧间（ f i 与 f i +1 ）距离 Di = （ Ai 槡－ A i +1 ）
法如下：（ 1 ）计算窗口的平均帧，即计算窗口内全部帧的对应像素的平均值： 1 珋 f = fi m∑ i =1 f i 是第 i 帧， i = 1， 2， …， m。其中，（ 2 ）计算协方差矩阵 C = E［（ fi －珋 f）（ fi －珋 f） T ］
1
1． 1
相关技术综述
主成分分析
主成分分析 PCA 是把高维数据投影到低维子空间的一种
收稿日期： 2014 － 06 － 04 。国家自然科学青年基金项目（ 61202453 ）；
广东省高等学校科技创新项目（ 2013KJCX0117 ）。谢彬彬，硕士生，主研领域：基于内容的视频检索。贾西平，副教授。方刚，教授。欧卫，硕士生。
基于 SVD 的镜头边界检测算法，经过 SVD 变换得到视频帧的特
0
引
言
征值矩阵，然后将特征值矩阵映射到向量空间，最后通过分析向。 7 ］量间的夹角来判断镜头的变化文献［提出了用增量主成分分析（ IPCA）对视频进行实时分析和在线镜头边界检测，通过每检测到 b 个镜头边界时，就从这个镜头边界开始重新初始化特征空间矩阵，避免 IPCA 允许样本逐步输入而造成需要存储空间逐步增大的问题。然后通过比较残余向量的模是否大于给定的阈值来检测镜头边界。本文提出一种基于 TextTiling 的镜头检测算法，借助 PCA 提取帧的特征，以滑动窗口为单位，将每个窗口内的帧投影到各利用投影到特征子空间的系数计算自窗口构成的特征子空间，相邻帧间距离，根据深度分段确定视频镜头边界。实验结果表 2］算法有较大明，本算法在镜头边界识别精确度上较文献［提高。
图1 视频中的相邻帧图2 与图 1 对应的潜间距离及窗口滑动示意在切变边界的深度值
对于切变镜头边界 b 与其相邻的左右 2 个窗口对应有 2 个相关的深度值 Depth b －1 Md b +1 = Md b － Md b －1 与 Depth b = 通常有可能 Depth b －1 与 Depth b 均满足阈值要－ Md b ，
2
基于 TextTiling 的镜头边界检测
针对镜头边界检测问题，本文提出一种新的算法，采用主成
分分析法提取视频帧的特征，采取以滑动窗口为单位，将每个窗口内的帧投影到各自窗口构成的特征子空间，再计算相邻帧间距离及潜在边界的深度值以识别视频镜头边界。本文算法优势主要体现在：（ 1 ）借助 TextTiling 方法通过引提高了入深度值对镜头切变出现的可能性进行了进一步评估，镜头边界识别的精度；（ 2 ）借助 PCA 提取视频帧的特征避免了帧间颜色直方图的局部颜色差异造成的波动，表达帧更精确。
求。因此在满足阈值的条件下，需要再比较当前的 Md b 与 Md b +1 之间的大小，距离大者且尚未被检测为边界的帧则为切变边界。本文算法的伪代码如下：
Algorithm Boundary_Identification 输入：视频 F，深度值 Depth，每个窗口的最大帧间距离 Md，常数系数α。输出：镜头第一帧的集合 Boundary_set 。 1． 2． 3． 4．计算 Depth 的平均值和标准差： Depth， σ 计算阈值： T = Depth + ασ ； j = 0； while （未遍历完 Depth j ）｛ if （ Depth j ＞ = T ＆＆ f j ， f j +1 未被检测为镜头边界）｛ if（ Md j ＞ Md j +1 ）｛ Boundary_set = Boundary_set∪ f j ；｝ else｛ Boundary_set = Boundary_set∪ f j +1 ；｝｝
第 33 卷第 1 期 2016 年 1 月
计算机应用与软件 Computer Applications and Software
Vol. 33 No． 1 Jan． 2016
一种基于 TextTiling 的镜头边界检测算法
谢彬彬贾西平方刚欧卫
（广东技术师范学院计算机科学学院广东广州 510665 ）
视频镜头边界检测是基于内容的视频检索中的关键技术，已成为机器学习、人工智能等领域研究的热点。近年来，国内外相关领域的众多学者做出了大量富有成效的工作。双阈值比较算法利用颜色直方图提取视频帧的特征，采用较大阈值检测连续帧间差中的突变镜头，采用较小阈值以及一应用运动分析来过滤包含系列帧间的累积差值检测渐变镜头，［1 ］全局或者大范围运动的帧以避免镜头误检。 2］文献［提出一种自动阈值镜头检测算法，在双阈值比较法的基础上使用一趟视频扫描，根据滑动窗口中的帧间颜色直方图差值是否满足分布差异来动态计算阈值。然而，当滑动窗口中的相邻帧间差同时出现多个较大值时易造成镜头边界漏 3］检。文献［提出用颜色直方图变化率 HCＲ（ Histogram Change Ｒatio）来计算直方图距离，并用聚类算法对镜头进行分割。文 4］献［提出基于自适应双重检测模型的视频镜头分割算法，结合滑动窗口自适应二分查找算法进行镜头边界初检，利用尺度不变特征变换算法对初检得到的镜头边界进行匹配复检。 5］文献［利用主成分分析 PCA （ Principal Components Analysis）来降低视频帧中提取特征的维度，但该算法不能检测具体 6］提出了的视频边界，而是用于发现高维的视频场景。文献［
1． 2
TextTiling 方法
Hearst［9］提出用 TextTiling 方法识别文本主题，对于主题前
后变化明显的长文档有较好的效果。该方法将文章切分成一系认为表达同一子主题的两个相邻块间的列前后衔接的语句块，相似度会较高，而子主题发生变化的两个相邻块间的相似度会将每个点与前后较低。把每两个相邻块的相似度作为一个点，两点的相似度下降值之和作为深度值
Abstract
Shot boundary detection is the key technology of contentbased video retrieval． In this paper we propose an algorithm which
identifies the video shot boundaries by using TextTiling． It makes initial segmentation on the video through a sliding window，and projects each frame onto a lowdimensional feature space with PCA （ principal components analysis ），and calculates in projection space the distance between two adjoining frames． Then it determines video shot boundaries according to the depth scores between the adjacent windows． Experimental result targeted at TＲEC2001 video testing data set demonstrated that the algorithm proposed in this paper has the average recall of 89% and the average precision of 96． 5% ． Keywords TextTiling Principal components analysis Shot boundary detection Video retrieval