中国莲花山计算机视觉和信息科学研究院最新进展

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国莲花山计算机视觉和信息科学研究院最新进展

作者:佚名文章来源:中国莲花山计算机视觉和信息科学研究院点击数: 1340 更新时间:2006-9-13

14:31:54

一、人工标注图象数据库项目

本项目主要研究建立手工标注图像数据库的理论、方法和规范,目标是建立一个世界上最大的百万幅人工标注图像数据库,为目前计算机视觉界的热点“全息图像解析”问题提供丰富的实验原料和科学的验证平台。研究的主要问题包括三个方面:(1)客观标注(groundtruth)自然图像和视频中的场景、物体、边界、空间几何等信息;(2)建立完善的手工标注图像数据库;(3)利用图像数据库进行计算机视觉图像模板库学习和训练。这里图像模板库泛指所有底层、中层和高层视觉基元库,包括底层小波基元“wavelet”库、纹理基元“texton”库,中层的图基元(graphlet)库和高层的人脸库)。本项目研究的目的实际上是有体系地建立一个通用计算机视觉原料库和实验平台,这是目前计算机视觉领域一致的需求和共识。

以下是目前我们人工标注的图象实例(LHI Image Labeling),敬请随时关注更新信息或与我们联系。

(请耐心等候下载,共8张实例)

二、全息图像解析(Image Parsing)

本项目旨在研究计算机视觉前沿理论和数学模型,结合最新技术发展要求,解决对图像和视频进行全息解析和检索的问题,这是开发下一代智能机器人,自动监控、跟踪系统和实时人机交互界面等项目中的核心技术之一,同时也可以直接应用在卫星图片理解,多媒体信息检索和图像、视频压缩处理等实用领域。项目内容包括:(I)建立一个统一多种视觉模式的数理模型,设计通用算法 (II)实现全息图像和视频解析的计算机视觉系统样机. (III)通过建立世界上最大的百万幅人工标注图像数据库,为建立理论(I)和系统(II)提供学习和性能评估的科学平台。

三、基于图语法的场景理解和三维重构

当前计算机视觉研究领域中,利用多幅(二幅)图像进行场景三维重建技术已经达到了稠密重建阶段,通过图像中的对应点,可以求解精确的空间点的3D坐标。但是无论是原始图像,还是重建后的图像,计算机得到的只是一些无意义的特征点,而对场景中的物体根本无法识别和理解。与此相对,人类视觉系统只需很少的3D信息就能对三维场景有一个大致理解,场景中的信息从无意义的特征点进化为有意义的目标,虽然人眼不能对目标精确定位,但是模糊的解读能力已经满足日常生活中的大部分要求。分析造成这种差别的原因:传统三维重建技术只是纯粹找多幅图像中的几何对应关系,所关心的目标只是一些底层视觉单元(如特征点,线,面),以及由其构成的几何模型。而在人类视觉系统中,则可以利用先验知识,如某一类物体的形状特征、组成结构,再结合识别场景中由底层视觉单元构成的这一物体的一些特征或者结构信息,来对此物体的理解,进而对场景实现理解。在这个过程中,多幅图像的三维信息只有当基于单幅图像的理解在空间结构出现了模糊或者歧义时才发挥作用,它们用来辅助人眼做出更为正确的判断,例如人眼的双目视觉比单目视觉可信度更高,以及可通过变换视角和观察位置来充分理解场景。

基于以上原因,本研究课题致力于以下方面的研究:提出由上向下(top-down)/自下而上(bottom-up)的Bayesian 推论框架,利用图语法(graph grammar)来描述物体的特征和属性,结合产生式方法(generative method)和辨识式方法(discriminative method)来分析和理解场景,并结合子图(graphlet matching)匹配的方法,在同一场景的多幅图像中建立拓扑关系,从而实现基于多幅图像分析上的场景理解,最后可以实现在场景理解基础上的三维重建。

四、运动分析和尺度变化自适应

自然界中包含着大量由各种各样的随机过程产生的运动模式,怎样表述这些不同的视觉模式、怎样为它们建模和怎样高效地学习、计算/推理是计算机视觉中基本问题。Primal sketch集成了产生式统计学习与推理和描述式模型。利用primal sketch模型,抽取运动图像不同帧之间的视觉模式,利用DDMCMC、MRF、Swendsen Wang cuts 等学习和推理算法,通过对拓扑变化、尺度变化、光度变化、几何变化等的建模来研究物体的复杂运动。

相关文档
最新文档