视频指纹的提取与匹配

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

替,它们的公式为: r[x,y,k]

GxG y
2
2
(4), θ[x,y,k]

tan
1
(
Gy Gx
) (5) 。
,在这种拟议视频指纹方法中,质心梯度方向这个值是由矩阵中的每一块获得的:
r[x,y,k] θ[ x,y,k] c[n,m,k] (x,y) B n,m,k r[x,y,k] (x,y) B n,m,k
c[1 , 2 , k ] c[N , M , k ]]
从梯度中获得的拟议指纹与边缘分布紧密相关,这些边缘分布提供了关于视频帧、物体界线等的视觉 信息。既然这些梯度不是基于像素而是基于像素的差异获得,拟议的指纹自然就能抵抗像素的剧烈变化, 比如亮度,色彩和对比度。尽管一些非线性的操作,例如伽马校正会引起一些大小相近的梯度值的较大变 化,拟议指纹仍然对非线性操作具有鲁棒性,因为它们不大可能影响到梯度的方向。 基于梯度特征已被用来作为一种描述符,它代表着局部图像区域,也可以作为一个视频指纹。Lowe 把梯度方向直方图作为一种局部描述符,它能代表检测到的兴趣点周围的区域。 对比试验表明 Lowe 的基 于梯度的局部描述符优于其它的局部描述符。然而,Lowe 的描述符的高维度使得梯度方向直方图并不适合 视频指纹。 Hampapur 和 Bolle 用梯度大小的质心作为除了主色之外的视频指纹。 既然他们只从挑选出的关 键帧中提取指纹,高维指纹就必须用来保证成对独立性。然而,当利用拟议的方法从所有重采样帧中提取 指纹时,必须用到低维指纹。在一定的低维度内,基于梯度方向的质心的视频指纹具有良好的鲁棒性和成 对独立性。拟议的指纹性能和上面介绍的基于梯度的指纹性能会在第四节的 D 部分加以比较, ,比较结果表明,在视频指纹领域,拟议的指纹优于在视频中的其他基于梯度特征的指纹。
N
M
K
N
M
K
(16)
2 R ( n n ' , m m ' , k k ' )} 2
P 的自相关函数 R 和 Q 如上文定义。像第三节 A 部分阐述的那样,式(16)中的 R 和 Q 可由实际的给定 了 N,M 和 K 值的指纹序列估计出。现在,对于某个 PFA,阈值 T 可由式(14)确定。例如,我们可以认 为错误警报值很低并等于 4 .6365 10 7 ,此时 N=2,M=4,K=100,T=0.4。
PF A
T
(x μ D ) exp [ 2π δ D 2δ 2 D 1
2 ]dx
1 2
e r fc (

T
D
2 D
).
(14)
剩下的问题就是获取距离 D 的均值和方差。假设两个指纹序列 p 和 q 是独立的,距离 D 的的均值可由下式 给出:
D E[D ] 2
三.指纹匹配
在数据库检索中,考虑一段视频的 K 个指纹,候选的匹配指纹是通过在数据库中进行一次范围搜索找 到的。然而,单独的一个低维度指纹是不足以保证一次可靠的匹配的。 为了解决这个问题,在拟议的方法中,一个指纹序列是通过将从连续的 K 帧中提取的指纹相联系而得 到的。例如,假设有一个量 Cv,k', (意思是数据库中视频片段 v 的第 k'个指纹) ,被当作是与视频片段 v 的第 k 个指纹最相近的指纹。进而,这个有 N,M,K 三个参数的候选指纹序列 c'就由如下公式产生了 c'=[Cv,(k'-k+1)„„Cv,k'„„Cv,(k'+K-k)].对于所有从数据库搜索中检索出来的候选指纹, 相关的指纹序列由 上式产生,并且它们将与查询指纹序列 c 相匹配,c=[c1,c2„„,ck]。我们注意到,在数据库检索环节中, 一次搜索过程是针对一个单独的指纹,并且整个的指纹序列仅仅在匹配环节中才用到。既然指纹的维度较 低,例如它的维度一般在 8—12 之间,数据库就可以有效地进行搜索,并且不会受到维度因素的负面影响。 在指纹匹配过程中,如果两个视频片段的指纹距离小于一个固定的阈值 T,那么就认为这两个视频片段 是相似的。为了确定阈值 T,需要考虑错误警报值 PFA 和错误拒绝值 PFR。错误警报值 PFA 指的是把两个 相异的视频判为相似的可能性,而错误拒绝值是指把同一段视频中的两个视频片段判为相异的可能性。一 次成功的匹配应该是能同时减小 PFA 和 PFR 的。然而,当 PFA 减小时,将 PFR 减小是不可能的。相反地, 当 PFR 减小时,PFA 会增加。 此外, 由于存在着大量的没有典型特征的数据处理过程, 所以 PFR 在实验时是难以分析的。 因此, 以把 PFA 值固定同时将 PFR 值最小化的方式确定阈值 T 的方法是很普遍的。 这种方法与著名的 Neyman_Pearson 准 则相似。 A. 指纹模化 在把拟议的指纹序列看作是一个平稳遍历过程的一次实现的前提下,指纹匹配有可能出现问题。我们 注意到,相似的分析已用于水印检测, 音频和视频指纹检测中。 首先, 一个指纹序列的所有质心 {c[n,m,k],1 ≦ n ≦ N,1 ≦ m ≦ M,1 ≦ k ≦ K } 是 由 它 们 的 均 值 和 标 准 差 进 一 步 规 范 的 , 如 下 面 公 式 :
p [n , m , k ]
c [ n , m , k ]
μc
δc
(10)
规范后的指纹序列 p 是一个平均值为 0,方差为 1 的随机过程。以 R 和 Q 作为 p 的自相关函数,公式如下:
R[ T 1 , T 2 , T 3 ] E[
p[n,m,k]p[
n T 1 ,m T 2 ,k T 3 ]
(6) B 。
n, m, k
是第 k 帧中位于第 n 行和第 m 列的那一块,
而 c[n,m,k]是从块 B
n, m, k
中取得的质心。 由于所有梯度大小的归一化, 质心的取值在-pi/2 到 pi/2 之间.第 k
帧的 N*M 维指纹向量 ck 是由下面公式获得的: (7)
c
k
= [c[1 ,1 , k ]
2 2
(15) 距离 D 的方差由下式获得: 。


2 D
E [ D ] ( E [ D ])
2
E[D ] 4 2 N M K
2 2 2 2
{Q ( n n ' , m m ' , k k ' )
n 1 m 1 k 1 n '1 m '1 k '1
摘要——视频指纹是能唯一地表征一段视频片段的特征向量。视频指纹的目标是:通过测量数据库中 所要检索的指纹和数据库中各个指纹的距离以确定一个给定的视频。在考虑成对独立性或鲁棒性时,通常 要测试视频指纹系统的性能,它直接关系到系统使用的指纹。本文中,一种基于质心的梯度方向的新型视 频指纹识别方法被提了出来。质心的梯度方向是根据它们的成对独立性和鲁棒性来选择的,这里的成对独 立性和鲁棒性是以常见的视频处理步骤(包括有损压缩,调整大小,帧速率的变化等)为背景的。 阈值,用于可靠地确定一个指纹匹配,理论上是借把被挑选出的指纹模型化导出的,而这个指纹模型被看 做是一个固定的具有遍历性的过程,并且该模型的有效性得到了实验验证。拟议的指纹的性能将在试验中 与其它广泛使用的视频特征做比较和评估。实验结果表明,在视频指纹识别环境中,拟议的指纹的性能优 于视频指纹识别中其它经过深思熟虑的特征。 关键词——基于内容的视频识别,感知视频散列,视频指纹。
] (11)
Q[ T 1 , T 2 , T 3 ] E[
2 p [n,m,k]
2 p [n T 1 ,m T 2 ,k T 3 ]
] (12)
其中 0≦T1≦N-1,0≦T2≦M-1,0≦T3≦K-1。在满足各态历经的前提下,自相关函数 R 和 Q 可以由实际的 指纹序列的时间平均自相关函数估计出,并且它们也用于在给定一个固定阈值时获得错误警报的概率。 B.阈值 T 的确定 快速而易计算的指纹匹配可以用欧式距离平方获得,公式如下:
Δf [
Gx Gy]
[
f x

f y
]
(1) 。坐标(x,y)的 f 函数变化最快的方向就是梯度方向。在拟
议 方 法 中 ,
G
x
G
y
约 等 于 :
Gx
f[x 1 ,y,k] f[x 1 ,y,k]
( 2 ),
Gy
f [ x , y 1 , k ] f [ x , y 1 , k ] (3) 。梯度矢量 f 也可用幅度函数 r[x,y,k]和相位函数θ [x,y,k]来代
D(p,q)

1 NMK
([p[n,m,k]
n 1 m 1 k 1
N
M
K
q[n,m,k])
2
(13)
这里的 p 和 q 代表着从两段不同的视频片段提取的指纹序列。由中央极限定理,如果(NMK)足够大,并 且 the contributions in the sums 足够独立,则距离 D 服从正态分布。用μ D 和Hale Waihona Puke Baidu D 分别表示距离 D 的均值和 标准差。在一般的假设下,距离 D 服从正态分布 N(μ D,σ ^2D) ,错误警报值 PFA 可以用如下公式计算:
图 2.拟议视频指纹提取的全过程
二.指纹提取
A.指纹提取的全过程 图 2 显示了拟议的视频指纹提取的全过程。第一步中,输入视频以一个固定的帧速率(每秒 S 帧)被 重新采样,以应对帧速率的变化。第二步中,每个重采样帧被转换为灰度,以使拟议的指纹识别方法足以 抵抗色彩的变化,这种方法不仅适用于彩色视频的剪辑,也适用于经典的黑白电影。第三步中,每个灰度 帧的大小被调整,以使它的宽度和高度分别规范化为两个固定的值:X,Y。这一步骤使拟议的指纹识别方 法能抵抗任何一个因素引起的大小变化。 在第四步中, 每个调整后的帧被分成了 N 行和 M 列, 形成了 N*M 的矩阵。最后,矩阵中的每一块都被计算出它的质心梯度方向,进而每一帧都得到了一个三维的指纹向量。 B.质心梯度方向 在第 k 帧的坐 标( x,y)位 置处,用 函数 f(x,y,k) 表示 该点的亮 度值。 坐标( x,y) 的梯度定 义为:
一.引言
在过去十年中,视频数据的数字化生产,储存,分发和广播在数量上大大增加了。数字视频的大量存 在使得视频内容的获取更容易,更廉价,同时,这也成为了许多问题的来源。例如,受版权保护的电影通 过文件共享在互联网上传播,侵害了它的版权。与数字视频相关的问题,急需一个有效的保护、管理和索 引视频内容的方法。 在应对这些问题的各种解决方案中,指纹识别(又称为感知散列或基于内容的媒体识别) ,正日益受到 重视。指纹是一个多媒体对象中一些基于人类感觉的特征集或简短的总结 ,指纹识别的目标是提供对内容进行识别的快速和可靠的方法。具体来说,视频指纹是将一个视频片断与 其它视频片断区分开的唯一的特征向量,视频指纹识别的目标是通过测量数据库中所要检索的指纹和数据 库中各个指纹的距离以确定一个给定的视频。视频指纹识别正在文件共享业务、广播监控、大型视频数据 库自动索引等领域中得到广泛应用。 视频指纹需要慎重选择,因为它们直接影响整个视频指纹识别系统的性能。一般来说,视频指纹需要 满足以下性质: •鲁棒性(感性相似不变性) :从一段遭受了失真的视频片段中提取出的指纹应该与原始的视频片段的 指纹相似。 •成对独立性(无碰撞性) :两个感知上不同的视频,必须有不同的指纹。 •数据库检索效率:对于一个大规模的应用数据库,指纹应该是有利于进行高效的数据库搜索。 图 1 显示了拟议的视频指纹的整体方法的结构,它由三部分组成:1)指纹提取;2)数据搜索;3)指纹 匹配。在指纹提取中,基于质心的视频指纹是从一段待确定的未知视频片段中提取的。在数据库搜索中, 执行范围搜索以找到匹配的候选指纹。数据库包括从视频库或者视频片段中获得的指纹,以及相应的元数 据,例如视频标题。要加快检索速度,像 KD 树这样的高效索引结构就需要被应用。然而,因为本文的重 点是指纹提取和匹配,数据库搜索算法不会给出详细解释。最终在指纹匹配时,在数据库检索时提取的候 选指纹中,搜索到了查询指纹,候选指纹中与查询指纹最相似的元数据被认为是指纹识别的结果。用于可 靠地确定一个指纹匹配过程的阈值理论上是通过模拟作为平稳遍历过程的被拟议指纹推导出来的,而这个 模型的有效性是得到了实验验证的。 本文的其余部分安排如下:第二节和第三节介绍指纹提取和指纹匹配,这两节各为拟议的视频指纹方 法的一部分。第四节最后,第五节总结全文。
相关文档
最新文档