技术交底书

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

技术交底书

一、发明名称

一种ptz监控视频实时融合系统及方法

一种ptz监控视频的快速姿态估算方法

一种ptz监控视频的快速标定方法

二、发明人及所在单位

北京天睿空间科技有限公司

三、本发明所属技术领域。

视频监控

四、本发明所属技术领域的现有技术和背景技术

PTZ摄像机在监控领域的广泛应用,对AVE监控系统带来了新的挑战。因为使用者可以任意的进行摄像机的PTZ和变焦操作,这就要求对处于任意姿态的摄像机进行快速标定。传统方法中需要一定的人工干预的交互操作以确定2D-3D间的对应关系,该方法在监控系统中难以满足实时响应的要求。

以下两种方法分别从不同的角度解决PTZ摄像机实时标定的问题:

方法1:H. S. Sawhney, A. Arpa, R. Kumar等在《Video Flashlights – Real Time Rendering of Multiple Videos for Immersive Model Visualization》中提出一种新的解决模式,系统首先用摄像机前一帧的姿态作为初始姿态,通过连续跟踪视频中的多边形平面特征实现摄像机的实时姿态估计,系统根据摄像机姿态估计结果,将模型中的多边形平面投影到视频帧中,形成局部边缘增强的图像,并计算图像的方向能量,通过迭代的方式选择方向能量最小的姿态参数作为摄像机的最佳姿态估计,最后将对应的内参数和外参数关联到模型中的虚拟摄像机上,从而实现固定摄像机的视频投影。

方法2:Lu Wang, Suya You, Ulrich Neumann等在《PTZ CAMERA

CALIBRATION FOR AUGMENTED VIRTUAL ENVIRONMENTS》提出用图像特征匹配的方法实现PTZ摄像机的实时姿态计算。首先为每个摄像机建立不同焦距和云台参数模式下的全景图,将全景图视为一张虚拟摄像机的拍摄画面,并计算出这些全景图的投影参数。对于任意姿态下的新图像,使用特征匹配的方法在数据库中查找最佳匹配的图像,计算两张图像之间的单应性,并通过单应关系,计算出新图像对应的摄像机内外参数。采用该方法计算摄像机实时姿态,处理延时在3秒左右。

五、现有技术的缺点是什么

在实际使用中,以上提出的两种方法都存在一定的缺点:

方法1:采用投影方法,迭代寻优,该方法对图像的颜色特征依赖度低,并且在大角度改变摄像机PTZ参数时,仍能保证较好的准确率。但是也存在一些问题,即PTZ参数改变越大,需要迭代搜索的时间也会越长,从而影响算法的实时性。

方法2:采用在相邻PTZ空间内搜索多张图像,寻找最优匹配,即一次配准,多次匹配。相比较而言,该方法在匹配成功的情况下具有更高的配准精度,但是基于图像匹配技术普遍存在的问题,图像的特征稳定性对光照、角度等因素有很大依赖性,难以保证一次完成的配准参考图在不同环境条件下都能匹配成功,同时,提高匹配的效率也是一个有待优化的问题。

六、针对现有技术的缺点,说明本发明的目的和要解决的技术问题

本发明的目的是在综合分析当前经典方法的基础上,提出基于场景结构索引的全景图快速匹配方法(Matching on Scene Structure Indexing,MSSI),解决实时估算摄像机姿态的问题。

MSSI方法大大提高了摄像机姿态实时估算的效率。实验表明,MSSI 方法的处理效率较方法1和方法2都有大幅度提升,平均处理速率可达15-20fps,且平均投影误差在可接受范围内。

七、本发明技术方案的详细阐述

MSSI在图像特征计算上采用单张全景图作为视频配准的参考,使用上下文相关法和结构特征索引法实现实时视频的快速匹配,在确定单应矩阵后,新的投影矩阵直接使用单应矩阵与原投影矩阵相乘得到。

1、场景结构索引

全景图中包含了大量的场景信息,并且对于每一个图像点,它在三维模型中的映射关系也是已知的,所以可以将全景图视为一张高分辨率的纹理图像,可以被精确的映射到三维模型中的对应位置。同理,若已知图像与全景图的单应关系,也就能将新的图像映射到三维模型的对应位置上去。可以看出,只要知道实时图像与参考图像的单应关系,就能计算出实时图像所对应摄像机的姿态参数。下面将详细介绍如何快速计算实时图像与参考图像的单应关系。

(1)场景结构全景图

场景结构全景图包含了较为完全的场景结构信息,由摄像机 PTZ 操作下产生的多个不同 FOV 图像构成的全景图,能够唯一确定某个FOV 状态下摄像机的姿态参数。本方法采用预先建立场景结构全景索引图的方法实时估算可控摄像机的投影参数,实现监控视频与三维场景的实时融合。

图1 场景结构全景索引图创建流程

(2)场景结构索引

场景结构全景图记录了摄像机在几乎所有有效视域内的场景结构特征,为实时估算任意摄像机的姿态提供了详细的参考信息,但是它所带来的问题是庞大的时间复杂度,难以满足实时计算的要求。

针对这一问题本节提出场景结构特征索引方法,将所有显著特征放在一张结构特征索引表(Structure Indexing Table,SIT)中,实质上是一张有限分辨率的图像中,供算法实时查找。图2为场景结构索引图以及对应的存储结构示意图。

图2 场景结构索引图以及对应的存储结构

本文假设基于以下前提:场景中角点特征并不是绝对均匀分布的,场景中的固有对象,即建筑物、灯杆、路面、雕塑、花坛等在相当长时间内是不变的。这也符合绝大多数场景的实际情况,换句话说,在场景结构全景图中有相当大的区域是缺少有效角点的,本节的工作正是在场景结构全景图中提取显著而有效的特征区域,并将这些特征区域与全景图关联,建立全景图特征索引,在需要进行全景匹配时,采用特征索引替代全景图进行特征运算,从而减小特征运算区域。场景结构索引分为特征点聚类、子图关联两个步骤。

特征点聚类。设全景图中的特征点集为points,对points进行 K-means聚类分析,将聚类结果按照所包含的特征点数量从高到低的排序,找到排序前 K 个特征聚类,为每个聚类中心点Center k建立一个m*n大小的矩形区域Rect k,对聚类中的所有特征点做矩形包围盒,将该矩形包围盒内的子图缩放到Rect k

规格,记矩形包围盒到Rect k的缩放因子分别为SBR_W k和SBR_H k。

子图关联。将每个Rect k区域内的图像单独提取出来,按8*8排列构成512*512 图像,并记录每个Rect k的聚类中心点坐标。

相关文档
最新文档