北理工贾云德《计算机视觉》chapter10彩色感知

合集下载

一种基于全向结构光的深度测量方法

一种基于全向结构光的深度测量方法

第41卷第9期自动化学报Vol.41,No.9 2015年9月ACTA AUTOMATICA SINICA September,2015一种基于全向结构光的深度测量方法贾同1吴成东1陈东岳1王炳楠1高海红1房卓群1摘要深度测量是立体视觉研究的重要问题,本文提出一种基于全向图与结构光的深度测量方法.首先,根据测量系统特点,采用了基于多参考面的投影仪标定算法;然后,设计了一组“四方位沙漏状”编码结构光,实现待测图像与参考图像的对应点计算;最后,在移动条件下,研究基于先验约束迭代就近点(Iterative closest point,ICP)的深度点云匹配算法.实验结果表明,本文方法可以准确地对室内场景进行深度测量,且抗干扰能力较强.关键词深度测量,全向图,结构光,立体视觉引用格式贾同,吴成东,陈东岳,王炳楠,高海红,房卓群.一种基于全向结构光的深度测量方法.自动化学报,2015,41(9): 1553−1562DOI10.16383/j.aas.2015.c140857A Depth Measurement Method by Omni Directional Image and Structured LightJIA Tong1WU Cheng-Dong1CHEN Dong-Yue1WANG Bing-Nan1GAO Hai-Hong1FANG Zhuo-Qun1Abstract Depth measurement is an important problem in stereovision.A depth measurement method based on om-nidirectional image and structured light is proposed.Firstly,according to the measurement system characteristics,main research attentions are paid to the study of projector calibration algorithm based on multiple reference planes.Secondly, a group of“four direction sand clock-like”encoding structured light is designed.It can be used to compute the corre-sponding points between the measured image and reference image.Thirdly,under a mobile condition,a depth point-cloud matching algorithm based on prior-constraint iterative closest point(ICP)is studied.Experimental results demonstrate that the proposed method can acquire omnidirectional depth information of large-scale scenes accurately,and has high anti-interference abilility.Key words Depth measurement,omnidirectional image,structured light,stereovisionCitation Jia Tong,Wu Cheng-Dong,Chen Dong-Yue,Wang Bing-Nan,Gao Hai-Hong,Fang Zhuo-Qun.A depth measurement method by omni directional image and structured light.Acta Automatica Sinica,2015,41(9):1553−1562立体视觉是机器视觉(Robot vision)领域的关键技术,即由同一场景的两幅或多幅观测图像出发获取物体三维信息的一种方法.立体视觉的目的是根据所测的图像信息,建立被观测景物的三维模型.心理学上的视觉感知使我们得知二维图像本身蕴含着丰富的三维信息,其中最重要的就是深度信息,因此深度感知问题是立体视觉的研究基础.它主要研究如何利用机器视觉系统模拟、延伸和扩展人的视觉感知能力,对场景深度信息以可视化三维模型的形式进行还原和显示,使机器人能在视觉系统引导收稿日期2014-12-09录用日期2015-05-28Manuscript received December9,2014;accepted May28,2015国家自然科学基金(61273078),教育部博士点基金(20110042120030),中央高校基础科研业务费(130404012)资助Supported by National Natural Science Foundation of China (61273078),Doctoral Foundation of Ministry of Education of China(20110042120030),and Fundamental Research Funds for the Central Universities of China(130404012)本文责任编委贾云得Recommended by Associate Editor JIA Yun-De1.东北大学信息科学与工程学院沈阳1108191.College of Information Science and Engineering,Northeast-ern University,Shenyang110819下有效地与周围环境产生作用[1−2].近年来,随着智能机器人领域的快速发展,目标深度信息提取与测量已经成为国内外研究热点.一般可将该类技术分为被动式和主动式两种.被动式深度测量技术是指视觉系统接受来自场景发射或反射的光能量形成图像,并在这些图像的基础上恢复场景的深度信息.其中,双目视觉技术最具代表性.基本原理就是利用位置不同的两台或者一台摄像机经过移动或旋转拍摄同一副场景,通过计算空间点在两幅图像中的视差,获得该点的深度信息[3−4].传统的双目视觉技术在标定、匹配及重构方面的基础性问题还未得到很好解决,而最为关键的问题是两幅图像中的特征点匹配问题.在三维空间深度信息的获取中,最有效的方法是采用结构光主动视觉技术及其装置.基本原理为采用一个光源装置代替双目视觉中的一个摄像机,用光源装置向场景中投射已知图案,用摄像机捕获图案,根据系统几何关系和三角测量原理获得待测物体的深度信息.由于该类技术使用已知图案对空间待测物体进行标记,因此很好地解决了对应点匹1554自动化学报41卷配的难题.同时结构光技术还具有成像系统结构紧凑、深度信息提取准确的优点.根据结构光投射光源方式可分为:点结构光法、线结构光法、面结构光法.点结构光法是激光器投射一个点光束到目标上,利用相机或PSD(Position sensitive detector)接收反射光逐点测量,测量速度慢[5].线结构光法使用线激光,一次就可获取一个截面内的点云数据,大大增加了单次测量的分辨率[6].为了实现大范围扫描,线结构光需要在某一个方向上进行连续扫描,故测量效率存在缺陷.面结构光法是将一张或多张具有特定编码的图像依次投射到目标上,从而获得投影仪和相机间的对应关系,利用三角测量原理可一次获得完整的三维深度信息.虽然基于结构光的深度信息提取已经逐渐成为研究热点,但由于传统视觉成像视野的制约,限制了该领域的进一步发展.以面结构光的典型代表Microsoft公司的Kinect设备为例[7−8],可以快速测量目标的深度,测量距离为0.5米至5米.但由于该设备的视觉俯仰视野约为45度,水平视野约为60度,无法一次投影获得完整的三维场景信息.当Kinect安装在移动机器人平台上进行深度测量时,被测目标特征出现在视野范围内的时间短,不能对特征进行连续观测,造成复杂环境中提供的信息少,不利于优化决策.另外一些多目视觉成像方法也具有此类问题,面向大场景深度信息提取,需要拍摄多幅图片才能达成[9].相对于传统视觉,全景视觉传感器(Omnidirectional vision sensor,ODVS)具有信息感知范围宽、信息获取完整等优点,可以感知360度的全景环境信息,ODVS所获得的图像也称为全向图.与被动视觉方法类似,全景立体视觉的最大挑战也是对应点的匹配.针对这一问题,国外学者提出了基于结构光的三维全景测量方法.如Yi等用4组线激光向空间投射一个激光平面,利用抛物面折反射式相机拍摄目标上变形的激光线从而获得目标的空间坐标,他还给出了测量系统标定方法[10−11].在此基础上,Matsui等利用单个激光器与一个圆锥反射镜也可获得一个激光平面[12].此外,还有原理类似的三维全景测量系统[13].但是上述系统仅能测量一个平面内的三维点云,无法获得场景的完整深度信息.近年来,我国学者也开始在三维全景测量领域开展研究,如浙江工业大学、哈尔滨工业大学、国防科技大学、浙江大学、清华大学、中国科学院自动化研究所、东北大学等,已经在该领域中取得一些成果[14−20].综上所述,虽然基于结构光的三维全景测量已经受到国内外学术界的高度重视,但其基础理论与技术水平尚不成熟,主要表现在以下几方面:1)标定繁琐误差大.三维全景测量系统中待标定的参数过多,加大了计算复杂度.另外,投影仪标定过程会用到摄像机标定结果,摄像机标定误差会带入到投影仪标定过程中,影响了标定精度.2)计算复杂精度低.三维重建时需要在每幅图片中找到特征点进行匹配,导致计算复杂、实时性差[21].3)目标遮挡易丢失.由于遮挡问题的存在,容易导致目标的漏检和丢失,对于目标定位、跟踪、识别造成了很大的挑战[22].1基于双曲面镜的单视点全景成像双曲面镜成像具有单视点特性,图像中每个像素与射向场景物点的一条射线对应(如图1所示). F1和F2分别表示双曲面的两个焦点.其中,F1为世界坐标系原点,F2(0,0,−2e)为图像坐标系原点, O C为投影中心.其中,双曲面镜折反射式如下:(z+e)2a2−x2+y2b2=1(1)图1单视点全景成像折反射模型Fig.1Catadioptric model of single-viewpointomnidirectional imaging式(1)中,a和b分别表示双曲面的长轴和短轴.在单视点条件下,来自P点的光线和曲面镜交于点P m,并且反射到图像平面上的点P I.点P I和P m相互间的关系可以被表示为P I=K[R,T]P m(2)其中,K表示摄像机的内部参数,R和T表示摄像机的外部参数.理想情况下,R等于一个单位矩阵9期贾同等:一种基于全向结构光的深度测量方法1555I ,T 为[0,0,2e ].式(2)转换为P I =f x αu 02eu 00f y v 02ev 00012eP m(3)其中,f x 和f y 分别表示沿着X 轴和Y 轴方向的焦距,[u 0,v 0]表示图像中心的坐标,α表示斜率.利用式(1),得到:P m =P M ×λ(P )(4)其中,λ(P )=b 2(−ez −a √x 2+y 2+z 2)/(b 2z 2−a 2(x 2+y 2)).结合式(3)和(4),点P I 和P 相互间的关系可以被表示为P I =λ(P )f x αu 02eu 00f y v 02ev 00012eP(5)x Iy I 1I∼=b 2 −ez −a √x 2+y 2+z 2 b 2z 2−a 2(x 2+y 2)× f x αu 02eu 00f y v 02ev 00012ex y z 1(6)其中,e =√a 2+b 2.本文根据折反射参数设计双曲面镜成像,并确保摄像机被安装在双曲面镜的第二焦点F 2位置,从而获得清晰成像.2深度测量方法2.1全景成像系统构建目前,设计的全景成像系统由三部分构成,分别是全向图捕捉系统、结构光投射系统以及三轴位移系统,系统结构图如图2所示.全向图捕捉系统由双曲面反射镜和工业摄像机构成,可以获取水平视角360度,垂直视角130∼150度的全向图.结构光投射系统由4个微型投影仪构成,可以同时向4个方向投射编码结构光,从而对周围空间物体进行深度测量.三轴位移系统通过步进电机控制,可以做水平与垂直方向的精确位移,能够在XY Z 方向上实现精确到微米级的移动.图2全景成像系统结构图Fig.2Structure of the omnidirectional imaging system2.2基于多参考面的投影仪标定由于投影仪不是图像捕捉装置,因此其标定的难点是获取目标特征点的图像坐标.根据获取坐标的方式,投影仪标定方法通常有三类:1)获得标定物上特征点的世界坐标,运用相位技术求出其图像坐标[23].这类方法需要多次投射正弦光栅,并且图像坐标的精度依赖于绝对相位展开的精度;2)同样先测得标定物上特征点的世界坐标,然后将特定的结构光图案投射到标定物上,运用交比不变性换算出投影图案特征点在图像坐标下的坐标[24].这类方法需要分别将用于相机标定和投影仪标定的图案区分开来,还需要做直线拟合和灰度插值;3)获得投影图案特征点的图像坐标,利用已标定相机模型的参数,反向投影求解其世界坐标[25−26].为了达到将相机标定和投影仪标定的图案区分开来的目的,此类方法通常需要特殊设计的标定板.本文面向全景成像系统,提出了一种基于多参考面的投影仪标定新方法,以双参考面为例,标定原理如图3所示.其中L i 为由投影仪射出的投射光线向量,L x 是目标点反射到全景相机的反射光线向量,O 是目标物上的待测点.对投影仪的标定,就是要计算射线L i 的方程.我们利用了两个深度已知的参考面来标定投影仪,参考面垂直于世界坐标系的X 轴.因此参考面距离全景相机的距离就是其在世界坐标系下X 轴上的坐标.首先,在深度为d 1的位置设定参考面1.由投影仪向参考面1投射结构光,并根据全景相机的标定结果所得到的结构光编码图案特征点的图像坐标获得与之对应的向量L o 1的方向向量为(x 1,y 1,z 1).由于L o 1经过双曲面镜焦点即世界坐标系的原点1556自动化学报41卷(0,0,0),则L o 1的参数方程为x =x 1t y =y 1t z =z 1t(7)设L o 1与参考面1有一个交点r 1,参考面1的平面方程为:x =d 1,可求出r 1在世界坐标系下的坐标为(d 1,y 1/x 1·d 1,z 1/x 1·d 1).图3基于双参考面的投影仪标定模型Fig.3Projector calibration model based on doublereference planes然后,使待标定投影仪向参考面2投射结构光,由系统捕捉第二参考面图像,利用相应的编解码方法,分别计算两个参考面图像中各个编码图案的码值,并根据单位位置上编码图案的唯一性原则确定第二参考面图像上与点r 1相对应的对应点r 2.假设点r 2反射到全景摄像机的反射光线为L o 2,根据摄像机的标定结果所得到的结构光编码图案特征点的图像坐标得到与之对应的向量L o 2的方向向量为(x 2,y 2,z 2),则L o 2的参数方程为x =x 2ty =y 2tz =z 2t (8)由于参考面2的平面方程为x =d 2,可求出r 2在世界坐标系下的坐标为(d 2,y 2/x 2·d 2,z 2/x 2·d 2).由图3可知r 1点与r 2点都在投影仪射出的射线L i 上,因此可以计算得到L i 的方程,从而完成一个方向投影仪的标定.重复以上步骤,可以完成另外三个方向投影仪的标定.当对待测目标深度进行测量时,仅需要根据目标物入射光线方程与两条参考面反射光线方程联立求解,即可求得深度信息,原理如图4所示.具体步骤为1)判断投影仪射线L i 与被测物体表面目标点的一条射线L x 是否共面,若是,则计算出这两条直线的交点坐标,即得到待测目标点的空间三维坐标;若否,则执行步骤2)∼4);2)平移L i 使其与L x 相交于点S 1;3)通过点S 1做L i 与L x 构成的平面的垂线,该垂线与L i 的交点为S 2;4)连接点S 1与点S 2得到L i 与L x 的公垂线段,计算该公垂线段中点M 的坐标,即得到被测物体表目标点的空间三维坐标.图4异面直线公垂线中点计算Fig.4Depth measurement method2.3结构光编解码2.3.1结构光基元图像设计在面结构光研究中,根据不同的编码策略将当前的编码图像分为时间多路编码策略、直接编码策略和空间领域编码策略三类[27].时间多路编码策略是目前最常用的一种结构光编码方法,包括二进制编码策略、格雷码等.它对检测物体表面连续投射多幅不同的图像,每一幅投射图像上相同坐标像素的亮度、相位等信息共同构成了这一点像素的编码值[28−29].此种编码策略在三维扫描工作中具有较高的精度,然而不适用于动态的物体测量是其最大的局限.直接编码策略的投影图像要求每个像素点都能通过其自身包含的特征信息(灰度值或色彩值)进行自我编码,因此每个像素点的码值都由该像素自身的特征所决定.由于像素点过多且相邻像素编码颜色比较接近,对于噪声的灵敏度较高,即与被测表面颜色密切相关,影响测量精度[30].空间领域编码策略是将一幅或者几幅图案中的所有编码信息压缩至一幅图案,图案中任意一个特征的码值都由所在位置的基元图案所代表的码字和其邻域内的其他码字共同组成,适用于动态物体检测.同时,该策略考虑了每个码字在编码图案中的唯一性,有效解决了9期贾同等:一种基于全向结构光的深度测量方法1557特征点匹配的难题[31−32].常用的空间邻域编码策略主要包括以下几类:1)不规则图案编码;2)一维伪随机序列编码[33];3)二维伪随机阵列编码[34].以上三种编码策略中,时间多路策略需要连续投射多幅图案进行检测,不适合检测动态物体.直接编码策略由于需要采用大量的颜色或者灰度进行编码,对噪声特别敏感,需要额外利用参考图像才能解决颜色干扰的问题.而空间邻域编码策略通常只需要一幅图像就可以完成检测,具有较高的空间分辨率与环境适应性.本文利用伪随机M 阵列能够方便对投影图像水平和垂直两个方向进行同时编码的特点,基于M 阵列的空间邻域编码策略,设计了一种“四方位沙漏状”编码结构光图像.设计原理如下:若有一维数为i ×j 的矩阵M ,且在M 中所有m ×n 维不都是零的子矩阵只出现一次.这种矩阵被称作为伪随机阵列,也称为M 阵列,这种阵列是由一维伪随机序列拓展到二维而得到的,所以M 阵列和一维伪随机序列一样,其本身也具有预先不可确定、不可重复实现等特征.为了满足单次投射条件,我们需要设计一组基元图像代表伪随机阵列中的不同元素.而且,为了易于特征提取和图像处理,在设计过程中提出以下几个约束条件:1)投射单色光,即图案由黑白两色构成.相对于彩色结构光而言,只有两种光强,易于图像处理.2)在一幅编码结构光图案中,保证单位区间基元图案的唯一性.3)基元图案中心对称,具有明显的特征点,易于精确提取,且抗干扰性好、稳定性高.基于以上约束条件,本文设计了一种沙漏状图像作为基元图像.构造的伪随机阵列基元的元素值为{0,1,2,3},针对4个不同的基元字符,采用4个不同的图形基元来构建投影图案,如图5所示.图54个结构光基元图案Fig.5Four image primitives of structured light图5中,将基元图案中心处两个三角形的顶点作为基元图案的特征点.其中,带箭头的线段表示的是基元图像“中线”的方向,其与基轴的夹角分别为0度、45度、90度、135度,并以此作为基元符号的识别标准,分别对应伪随机阵列中的{0,1,2,3}.2.3.2解码策略因为本文使用的投影图案是经过特殊设计的伪随机编码图案,需要对获取图像进行特征点提取、方向角计算,然后再将识别后的基元图像根据其自身几何特征还原成对应的数字矩阵,即完成解码.下面分别进行介绍.2.3.2.1基元图案特征点提取1)预处理.首先,需要对捕捉到的原始图像进行去噪、顶帽变换等预处理操作.然后,采用Canny 算子对目标区域图像进行边缘提取操作,可以得到基元图案的边缘结果.2)特征点提取.首先,进行基于质心坐标的特征点粗提取.然后,进行基于灰度梯度的特征角点的精提取.本文在特征角点粗定位的过程中,需要根据质心公式分别对所有基元符号边缘单独进行质心坐标计算,静矩的计算公式如下:m pq =k −1 i =0l −1 j =0i p j q f (i,j )(9)式中,k ×l 表示图像尺寸,i 和j 表示像素坐标,f (i,j )表示相应位置的像素值.基元图案的质心坐标为x c =m 10m 00,y c =m 01m 00(10)采用上述方法对投影图像进行特征点的提取,提取结果如图6(a)所示.将特征点坐标投影到原始图像中,如图6(b)所示.(a)特征点提取(a)Feature point extraction(b)特征点映射(b)Feature point projection图6特征点提取结果Fig.6Feature point extraction results2.3.2.2基轴计算本文根据图像基元符号的中线与图像基轴之间的夹角来对投影图案进行解码.由于全向图在水平方向上的位置信息会发生偏移,如图7中横线所示,因此不适合作为基轴.而若空间中两个目标点的连线是垂直于水平面的一条直线,则这两个目标物在全向图中的相对位置不发生改变,因此本文将基元图案的基轴设定为垂直方向.由于投影仪投射的编码图案经过双曲面反射镜发生了畸变,编码图案中1558自动化学报41卷竖直方向的直线在全向图中变成了径向直线,所以根据获得的全向图中每一列基元图案特征点的连线构成的径向直线的方向,即为基轴方向,如图7中垂直方向所示.图7结构光基轴提取Fig.7Horizontal and vertical lines in the omnidirectional image2.3.2.3码值计算本文采用基于邻域的空间编码策略,每个基元的码值都由其自身码字和其8邻域的码字决定.针对某一待解码基元(如图8(a)所示),将该阵列中的各个码字按照一定顺序排列可以获取一个唯一确定的码值.如图8(b)所示,以待解码图形基元质心的码字为第一个码字,其余8个码字分别按照与待解码图形基元相邻的上侧、右侧、下侧、左侧、左上侧、右上侧、右下侧、左下侧的图形基元码字的顺序排列,得出待测基元的码值为123200103.图8解码策略Fig.8Decoding strategy对目标图像和参考图像分别进行解码获得码值矩阵,通过编码窗口的唯一性可以确认目标图像特征点与参考图像特征点之间的一一对应关系.在此基础上,根据标定结果计算目标点的深度信息.2.4基于改进迭代就近点(ICP)的深度点云匹配在对实际场景测量过程中,为了避免遮挡,获得更大的视场信息,需要移动视觉系统,并采用点云匹配算法以获得更大场景的深度点云信息.因此,本文提出了一种改进的迭代就近点(Iterative closestpoint,ICP)算法,基本思路如式(11)所示.f =1N p N p i =1→m i −R ·→q i −T2(11)在视觉系统移动过程中,连续拍摄的两幅图像存在重复部分.设在重复部分对应点对之间的均方根误差为f ,N p 为两幅深度图像点集中对应点对的个数,点集坐标分别保存在参考点集向量M ={m i ,i =0,1,2,···,N p }和目标点集向量Q ={q i ,i =0,1,2,···,N p }中,R 和T 分别是对应点对进行匹配的旋转和平移参数.计算均方根误差f ,如小于预设的阈值,则结束;否则,采用式(11)进行迭代,直至f 小于预先设置的阈值.由于ICP 算法在确定初始对应点集上需要耗费大量时间,如果进行匹配之前给出点云的初始位置,就可以大幅度减少寻找初始对应点集的时间.因此,本文控制三轴移动平台的移动方向与移动距离,可以预先计算出初始旋转矩阵R 0和平移向量T 0,从而得到新的点集Q 1,如式(12)所示.Q 1=Q ·R 0+T 0(12)以点集Q 1替换计算M 与Q 1之间的均方根误差f ,如小于预设的阈值,则结束;否则,继续进行迭代,直至f 小于预先设置的阈值.利用此思路可以减少计算初始对应点集的时间,提高ICP 算法的效率.3实验结果与分析3.1深度测量误差分析本文对不同深度平面进行了测量分析,提取16组深度数据进行误差分析(如表1所示).由表1可知系统的最大误差是0.5307mm,测量均值、标准差、方差分别为0.2526、0.1293、0.0167.本文把测量结果分别与传统线结构光方法与我们提出的网格结构光测量方法[35]进行了对比,如表2所示.线结构光测量基于时间多路编码策略,准确性较低,且需要多次投影才能完成测量.网格结构光法基于空间领域编码策略,可以实现单次投射,测量准确性较高,但易受到环境光与物体表面变反射率的影响.线结构光与网格结构光都不适合对动态物体进行测量.本文方法为单次投射结构光编码方法,可以实现在移动条件下对动态物体进行精确测量,而且鲁棒性较好.9期贾同等:一种基于全向结构光的深度测量方法1559表1深度测量结果及其误差(毫米)Table1Depth measurement results and errors (mm)实际深度测量深度测量误差520520.10260.1026530530.10190.1019540539.89490.1051550550.12460.1246560559.87620.1238570569.85640.1436580580.13920.1392590589.85090.1491600600.18490.1849610609.79140.2086620620.29160.2916630629.66340.3366640640.35150.3515650649.6580.342660660.38150.3815670669.46930.53073.2点云匹配分析本文中,在实验台移动过程中相邻两个位置(P1与P2位置)获取的全向结构光图像分别如图9(a)和(c)所示,相应的局部目标结构光图像分别如图9(b)和(d)所示.图10为相应两个位置的点云匹配实验结果,可以获得更大场景的深度点云信息.在工作台移动过程中,本文基于改进ICP算法实现了点云匹配,并与经典ICP算法进行了对比,如表3所示.(a)P1位置全向结构光图像(a)Omni-directionalstructured light image at P1position(b)P1位置局部目标结构光图像(b)Local structured lightimage at P1position(c)P2位置全向结构光图像(c)Omni-directionalstructured light image at P2position(d)P2位置局部目标结构光图像(d)Local structured lightimage at P2position图9相邻两个位置(P1与P2位置)全向与局部目标结构光图像Fig.9Omni-directional and local structured light image表2不同结构光方法比较Table2Comparison of different structured light methods准确性相机投影仪投影3D点云是否适合是否易受是否易受方法(均值)分辨率分辨率次数个数动态物体环境光物体变反射率测量干扰的影响线结构光 2.3mm1024×768—1300否否否网格结构光0.21mm1024×768点阵51×511320否是是本文提出方法0.25mm1024×768854×60011440是否否(a)P1位置局部目标深度点云图像(a)Local object depth point matching atP1position(b)P2位置局部目标深度点云图像(b)Local object depth point matching atP2position(c)深度点云匹配图像(c)Depth point matching image图10深度点云匹配Fig.10Depth point matching1560自动化学报41卷表3改进ICP 算法与经典ICP 算法时间对比Table 3Time comparison between the improved ICPalgorithm and the classical ICP algorithm点云个数经典ICP 算法时间(s)改进ICP 算法时间(s)1260.1392640.0172921390.1512830.0177231480.1527390.0182631650.1692760.0205741730.1975490.0260173.3目标三维重建本文将标定完成的投影仪向4个方向投射预先设计的编码结构光,并在一幅图像中对4个方向的结构光图案进行解码操作.图11为获得的全向结构光图像.基于本文方法获得四方位目标深度点云后,采用Delaunay 三角剖分方法对深度点云信息进行了三维重建,全向图重建结果如图12所示.图11全向结构光图像Fig.11Omni-directionalimage图12全向三维重建结果Fig.12Omni-directional 3D reconstruction result4结论本文提出了一种基于全向图与编码结构光的深度测量方法.首先,提出基于多参考面的投影仪标定新方法,把对投影仪参数计算的过程转换为求解投影仪射出的空间射线方程的过程,克服了一般成像系统标定方法中,标定步骤繁琐且误差较大的问题.然后,设计了一种四方向的沙漏状结构光基元图案,有效减少了特征点提取与立体匹配的计算复杂度,且抗干扰性较强.最后,提出了一种在移动条件下,基于先验约束ICP 的深度点云匹配算法,加大了测量范围,避免了目标易被遮挡的问题.通过对实验结果进行分析,本文深度测量方法可以有效避免遮挡问题的影响,实现较大场景全向深度信息的获取.而且,深度测量精度较高,并随着参考面设置数量的增加,测量精度可以进一步提高.下一步,已经研究采用移动小车平台代替目前的位移系统,以实现更大范围场景的深度测量与感知.References1Zhang H,Reardon C,Parker L E.Real-time multiple hu-man perception with color-depth cameras on a mobile robot.IEEE Transactions on Cybernetics ,2013,43(5):1429−14412Tai Y C,Gowrisankaran S,Yang S N,Sheedy J E,Hayes J R,Younkin A C,Corriveau P J.Depth perception from stationary and moving stereoscopic three-dimensional im-ages.In:Proceedings of the SPIE —The International So-ciety for Optical Engineering.Burlingame,California,USA:SPIE,2013.8648−86583Xu Yu-Hua,Tian Zun-Hua,Zhang Yue-Qiang,Zhu Xian-Wei,Zhang Xiao-Hu.Adaptively combining color and depth for human body contour tracking.Acta Automatica Sinica ,2014,40(8):1623−1634(徐玉华,田尊华,张跃强,朱宪伟,张小虎.自适应融合颜色和深度信息的人体轮廓跟踪.自动化学报,2014,40(8):1623−1634)4Jung B,Sukhatme G S.Real-time motion tracking from a mobile robot.International Journal of Social Robotics ,2010,2(1):63−785Guo Chun-Zhao,Yamabe Takayuki,Mita Seiichi.Drivable road boundary detection for intelligent vehicles based on stereovision with plane-induced homography.Acta Auto-matica Sinica ,2013,39(4):371−380(郭春钊,山部尚孝,三田诚一.基于立体视觉平面单应性的智能车辆可行驶道路边界检测.自动化学报,2013,39(4):371−380)6Wei B Y,Gao J Y,Li K J,Fan Y,Gao X S,Gao B Q.Indoor mobile robot obstacle detection based on linear structured light vision system.In:Proceedings of the 2009IEEE International Conference on Robotics and Biomimet-ics.Bangkok,Thailand:IEEE,2009.834−8397Susperregi L,Sierra B,Castrill´o n M,Lorenzo J,Mart´ınez-Otzeta J M,Lazkano E.On the use of a low-cost thermal sensor to improve Kinect people detection in a mobile robot.Sensors ,2013,13(11):14687−147138Luo Bin,Wang Yong-Tian,Shen Hao,Wu Zhi-Jie,Liu Yue.Overview of hybrid tracking in augmented reality.Acta Au-tomatica Sinica ,2013,39(8):1185−1201(罗斌,王涌天,沈浩,吴志杰,刘越.增强现实混合跟踪技术综述.自动化学报,2013,39(8):1185−1201)。

北理工贾云德《计算机视觉》chapter12标定

北理工贾云德《计算机视觉》chapter12标定

第12章 标定本章将讨论各种摄象机系统及深度成像系统的标定方法.在摄影测量学领域中,已经建立了大量的摄象机和测距传感器标定方法.这些方法可以用来确定摄象机或测距传感器在场景中的位置和方向以及与场景坐标之间的关系.在摄影测量学中有以下四个标定问题:(1) 绝对定位:通过标定点确定两个坐标系在绝对坐标系统中的变换关系,或确定测距传感器在绝对坐标系中的位置和方向.(2) 相对定位:通过场景中的标定点投影确定两个摄象机之间的相对位置和方向.(3) 外部定位:通过场景中的标定点投影确定摄象机在绝对坐标系中的位置和方向.(4) 内部定位:确定摄象机内部几何参数,包括摄象机常数,主点的位置以及透镜变形的修正量.这些标定问题主要起源于高空摄影技术,是摄影测量中的经典问题.除了以上四个标定问题外,摄影测量学还解决以下两个问题:一是通过双目立体视差确定点在场景中的实际位置,二是对立体图像对进行校正变换,使得立体图像对的外极线与图像的行平行以便简化后续处理(见第十一章).摄象机标定过程中涉及到以下几种坐标,场景坐标、摄象机坐标、图像坐标和像素坐标等,这些坐标已经在1.7中介绍成像基础知识时引入.确定这些坐标之间的关系就是本章所要讨论的各种标定问题的目的.12.1 刚体变换物体位置和方向的任意变化都可以认为是刚体变换,因为物体的移动只改变其位置和方向,并不改变其形状和大小.假定通过两个处于不同位置的摄像机均可看到θ点,p 点在两个摄像机坐标系中的坐标分别是和()2222,,z y x =p .显然两个摄象机位置之间的变换是刚体运动,因此,p 点在第一个视场中的坐标p 1可以通过旋转和平移变换到第二个视场中的坐标2p ,t Rp p +=12(12.1)其中矩阵R 是一个33⨯的正交方阵,用于旋转变换:⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=zz zy zx yz yy yxxz xy xx r r r r r r r r r R (12.2) 矢量T z y x t t t ),,(=t 表示平移,或者说点t 是第一个坐标系原点在第二个坐标系上的坐标,如图12.1所示.图12.1 两个摄像机坐标系方程12.1可以认为是计算一个点经过旋转和平移以后的新坐标,或是计算空间中同一个点在不同坐标系中的坐标 .前者用于刚体力学:在物体移动到一个新的位置以后,计算物体上一点的新坐标;后者用于标定问题:同一点在不同观察位置上观察将会得到不同的坐标,这种不同可以由刚体变换确定,而标定问题就是来确定这种刚体变换.例如,考虑两个具有不同位置和姿态的摄象机观察场景中同一点,由于观察角度不同,这一点在两个摄像机坐标系中的坐标是不同的.设想旋转第一个摄象机,使其方向与第二个摄象机的方向相同;再设想将第一摄象机平移到第二摄象机的位置上,则两个摄象机坐标系完全重合. 12.1.1旋转矩阵空间角可用直角坐标系中的欧拉角描述:绕x 轴旋转角θ,绕新的y 轴旋转角ψ,绕新的z 轴旋转角φ,角θ是光轴的俯仰角(pitch),也叫垂直角,角ψ是光轴的偏航角(yaw)(水平角),角φ表示光轴滚动角(roll)或扭转角(twist).无转动(三个角都等于零)指的是两个坐标系统完全对正.各角度旋转正方向为从坐标系原点沿各轴正方向观察时的逆时针旋转方向.用这些角表示方程12.2定义的旋转矩阵各元素如下:ψθψθψφθφψθφθφψθφψφθφψθφθφψθφψcos cos cos sin sin cos sin sin sin cos cos cos sin sin sin sin cos sin sin cos sin cos sin cos cos sin sin cos cos ==-=-=+==+=-==zz zy zx yz yy yx xz xy xx r r r r r r r r r(12.3)用欧拉角的形式来确定坐标系的旋转会引起数值解不稳定,因为欧拉角很小的变化可能对应很大的旋转变化.因此,标定算法或者求解旋转矩阵的各元素常使用其它形式的旋转角表达式,如,四元数等.旋转矩阵是一个正交矩阵:I R R =T (12.4)其中I 表示单位矩阵.由上述公式不难得到旋转矩阵的逆就是该矩阵的转置.标定算法会在坐标系之间产生刚体变换;例如,从坐标系1到坐标系2,我们有212t Rp p += (12.5)刚体变换的逆变换就是将坐标系2的坐标变为坐标系1的坐标:12221)(t p R t p R p +=-=T T (12.6)这里的i t 表示坐标系上的i 点是另一个坐标系的原点.注意平移变换的逆变换并不是简单的等于2t 必须乘以旋转变换的逆变换,因为2t 表示在坐标系2上的平移,其逆变换一定要表示到与坐标系1同一个方位的坐标系中 .图12.2 欧拉角或俯仰角、偏航角和滚动角示意图12.1.2旋转轴旋转也可以规定为逆时针(右手坐标系)绕由单位矢量(,,)ωωωx y z 表示的轴的旋转.这是一种观察旋转的非常直观方法,但是它在数值计算上也有和欧拉角一样的问题.旋转轴和旋转角度表达式可以转换成矩阵表达式(方程12.1),以作为刚体变换的公式.当然,如果能直接使用旋转轴和旋转角表达式来产生满意的数值解,将是最好不过的了.在这种思路的基础上产生了旋转四元数,这也是将四元数用于旋转表示的原因之一.12.1.3 四元数四元数是一个四元矢量()432,1,,q q q q q =,可用来表示坐标旋转.实践证明,对于定位求解问题,四元数表示可以给出很好的数值解.为了理解四元数是如何对旋转进行表示的,我们首先想象在二维平面x y -上的一个单位圆,单位圆上的任何一个位置都只对应于一个旋转角.如图所示.图12.3 单位圆上一点),(y x 只能对应一个旋转角θ再考虑三维空间中的单位球:x y z 2221++= (12.7)在单位球上的任意一点只对应绕x 轴和y 轴旋转的两个角θ和ψ,无法表示绕z 轴旋转的第三个角φ.显然,再增加一个自由度就可以表示所有三个旋转角.四维空间单位球定义如下:x y z 22221+++=ω (12.8)三维空间中所有三个旋转角可以通过四维单位球上的点来表示.由单位四元数表示的旋转公式如下:q q q q 021222321+++= (12.9)每一个单位四元数和其反极点(antipole)-=----q (,,,)q q q q 0123都表示三维空间中的旋转.用单位四元数表示刚体变换的旋转矩阵:()()()⎢⎢⎢⎣⎡-+--+=203130212322212022q q q q q q q q q q q q q R ()()103223212220302122q q q q q q q q q q q q +--+- ()()222123201032203122q q q q q q q q q q q q --+-+⎤⎦⎥⎥⎥ (12.10) 在计算出单位四元数之后,就可利用上式计算旋转矩阵.单位四元数与上节描述的旋转角和旋转轴有密切关系.旋转可以用旋转量θ和旋转轴方向()ωωωx y z ,,的组合来表示,即四元数由一个与旋转量有关的标量和一个旋转轴矢量组成 .设旋转轴的单位矢量为()ωωωx y z ,,,使用i ,j 和k 表示坐标轴,则旋转轴单位矢可以表示为: ωωωx y z i j k ++(12.11)绕该轴逆时针旋转θ角的单位四元数为: ()k j i k j i z y x z y x q q q q q +++=+++=02sin 2cos ωωωθθ (12.12)上式的第一项为四元数的标量(实)部分,其余项为矢量(虚)部分.空间点p =(x,y,z)的四元数r 实际上只有矢量部分(虚部),该矢量就是空间点p 的矢量表示.k j i r z y x ++=(12.13)设'p 是点p 通过矩阵()R q 旋转得到, ()p q p R =' (12.14)若r 是点p 的四元数表示,那么对旋转后点的四元数表示'r 可以由四元数q 直接计算:'=*r qrq (12.15)这里的()q *=---q q q q x y z 0,,,,是q 的共轭四元数:四元数乘法定义如下: ),,,(00000000q r q r q r q r q r q r q r q r q r q r q r q r q r q r q r q r z x y y x z x z y z x y y z z y x x z z y y x x +-+++--++---=rq (12.16) 刚体变换可以很方便地用七个元素()6543210,,,,,,q q q q q q q 表示,前四个量是单位四元数,后三个量是平移量.在这一表达式中,若用R(q)表示对应于单位四元数的旋转矩阵,则刚体变换式为:()()T q q q R 65412,,+=p q p (12.17)12.2 绝对定位绝对定位问题是确定两个坐标系之间的刚体变换问题.求解绝对定位问题在机器视觉中有着许多应用,其中的一个应用是确定测距成像系统或双目立体视觉系统与定义在场景中的绝对坐标系之间的关系,这样可以将所有的测量值均表示在一个公共的坐标系里.若()c c c c z y x ,,=p 表示点在摄象机坐标系中的坐标,()a a a a z y x ,,=p 表示点在绝对坐标系中的坐标,则绝对坐标定位问题的输入就是一个共轭对组:),{(1,1,a c p p ,),(2,2,a c p p ,...,)},(,,n a n c p p .为了求解绝对定位问题,我们把刚体变换方程展开,以便说明旋转矩阵中各项的作用.设c p 是摄象机坐标系内的点,p a 是绝对坐标系内的点,从p c 到p a 的刚体变换公式为:zc zz c zy c zx a y c yz c yy c yx a xc xz c xy c xx a t z r y r x r z t z r y r x r y t z r y r x r x +++=+++=+++=(12.18)其中12个未知参数中有9个是旋转矩阵参数r ,3个是平移参数t .每个共轭对),(a c p p 对应有三个等式,则至少需要四个共轭对产生12个方程才能解出12个未知数.在实际应用过程中,常常使用大量的共轭对(这些共轭对通常是空间标定点在不同坐标系中的表示)来提高计算精度.在解线性系统方程时,如果旋转矩阵R 没有正交标准化,则可能得不到有效的旋转矩阵.使用非标准正交矩阵作为旋转矩阵可能会产生意想不到的结果,如不能保证矩阵转置一定等于矩阵逆,并且共轭对的测量误差会严重地影响计算结果,从而不能产生刚体变换的最佳逼近.有些方法是在每一步迭代过程之后对矩阵进行正交化,但仍不能保证正交化的矩阵是旋转矩阵的最佳逼近.一种替代的方法是求解旋转角而不是矩阵的各项元素.旋转角最一般的表示方法是欧拉角,不过使用欧拉角会导致非线性方程,从而产生数值计算上的困难.在摄影测量中,通常的做法是对非线性方程线性化并求解,以便得到名义值的修正值.这种线性化算法的成功与否很大程度上取决于初始预估值好坏.下面讨论用单位四元数表示方法求刚体变换.设)(q R 是对应于单位四元数q 的旋转矩阵,则摄象机坐标系上的每一点坐标转换成绝对坐标的刚体变换公式如下:()c i c i a R t p q p +=,, (12.19)其中c t 是摄象机原点在绝对坐标系中的位置.现在的回归问题有七个参数:表示旋转的单位四元数的四个参数加上平移矢量的三个参数.正如前面所指出的,绝对定位问题的输入是共轭对集合:),{(1,1,a c p p ,),(2,2,a c p p ,…,)},(,,n a n c p p .考虑一组点的两种集合表示,在摄象机坐标系中的点集{}n a p p p p ,2,1,,,,Λa a a =和绝对坐标系中的点集{}n p p p p ,2,1,,,,c c c c Λ=.绝对定位问题就是在空间中将这两个点群对正.下面计算每个点集的矩中心: ∑==ni i a a n 1,1p p (12.20) ∑==ni i c c n 1,1p p (12.21)用矩中心与每一个点相减得: r p p a i a i a ,,=-(12.22) r p p c i c i c ,,=-(12.23)若已知旋转矩阵)(q R ,则平移表达式可表示为: ()c c p q R p t a -= (12.24)下面将讨论求解旋转矩阵,使得这两簇射线对正.在推导旋转矩阵时,将点表示为从矩中心出发的射线,这样所有坐标都将是射线坐标.由于射线束是由共轭对集合推导的,因此,我们可以知道在摄象机射线束中的某一条射线对应于绝对坐标射线的那一条射线.当两组射线对正后,每一对对应射线将会重合.换句话说,每一对射线位于同一条直线上,并指向同一方向.若不考虑测量误差的影响,则每对射线之间的夹角应为0,夹角的余弦为1.测量误差导致射线束不能完全对正.但可以在最小方差的意义上,通过求解旋转矩阵R ()q 束得到最佳对正结果,其中旋转矩阵的求解是求每对射线标量积的极大值:()χ21=⋅=∑r q a i c i i n R r ,, (12.25)在四元数中,上面的和式可以表示为:()()rqr q qr qr a i c i i n c i a i i n ,,,,⋅=⋅==∑∑11 (12.26)上式可以变成二次表达式:()()()()q q q q q q q q q q q r qr N N N N N N N N T n i i T n i i a T i c T ni i a T i c T n i i a T i c n i i a i c =⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛===⋅∑∑∑∑∑=====11,,1,,1,,1,, (12.27) 假设q 对应一个列向量.则使二次式取极大值的单位四元数是对应于最大正特征值的特征向量.特征根可以利用[Horn 1987]给出的公式求解四阶多项式来确定,也可以利用标准数值方法[Press 1988]计算特征向量和特征值.矩阵N c i ,和N a i ,是由每个射线元素构成.设()r x y z c i c i c i c i ,,,,,=,()r x y z a i a i a i a i ,,,,,,=,那么:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡------=0000,,,,,,,,,,,,,i c i c i c i c i c i c i c i c i c i c i c i c j c x y z x z y y z x z y x N (12.28) ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡------=0000,,,,,,,,,,,,,i a i a i a i a i a i a i a i a i a i a i a i a j a x y z x z y y z x z y x N (12.29) 矩阵N 为:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡+--++-+-+-+-++------++=zz yy xx zy yz xz zx yx xy zy yz zz yy xx yx xy xz zx xz zx yx xy zz yy xx zy yz yx xy zy zx zy yz zz yy xx S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S N (12.30) 式中的和式S 是由摄象机坐标系和绝对坐标系的射线坐标元构成.其中,S kl 是求所有共轭对的摄象机坐标点的坐标k 坐标和在绝对坐标点的坐标l 坐标的乘积和:S kl kl c i a i i n ==∑,,1 (12.31)上述计算的结果是一个单位四元法,表示校准射线束的旋转变换.刚体变换可以作用于测距摄象机,双目立体视觉系统或任何其它深度测量系统产生的测量坐标值,以便把这是测量值变换到绝对坐标系统的测量坐标值 .12.3 相对定位相对定位问题是指用场景点在两个图像平面上的投影来确定两个摄象机坐标系之间的关系.相对定位问题是双目立体视觉系统标定的第一步.我们曾在第十一章讨论了沿极线匹配特征的双目立体视觉算法.为了简化表示,假定左、右图像平面上的外极线皆与图像阵列的行线重合,且对应的左、右图像阵列的行标号也相同.设场景点p 在左、右两个摄象机的视场范围内(见图11.1).点p 在左摄象机坐标系用),,(l l l l z y x =p 表示,在右摄象机坐标系内用),,(r r r r z y x =p 表示.点p 在左摄象机图像平面上的投影为'=''p l l l x y (,),在右摄象机图像平面上的投影为'=''p r (,)x y rr 设左右摄像机智的焦距分别为r l F F ,.由透视投影得到公式:l l l l z x F x =' ll l l z y F y =' (12.32) r r r r z x F x =' rr r r z y F y =' (12.33) 将左摄象机坐标系转换为右摄象机坐标系的刚体变换方程如下:zl zz l zy l zx r y l yz l yy l xy r xl xz l xy l xx r t z r y r x r z t z r y r x r y t z r y r x r x +++=+++=+++= (12.34)从透视投影方程()和()求出x y x l l r ,,和y r ,并将它们代入上面的刚体变换方程,得到一组共轭对投影之间的关系方程:rl l r r l l z l zz l zy l xz r l l r r l l yl yz l yy l xy r l l r r l l xl xz l xy l xx F F z z x z F t z r y r x r F F z z x z F t z r y r x r F F z z x z F t z r y r x r '=+'+'+''=+'+'+''=+'+'+' (12.35) 变换方程的旋转部分改变左摄象机的方位使之与右摄象机方位相同.而平移部分就是两个摄象机之间的基线.平移变量和深度变量在等式中以比值的形式出现,分别表示基线的长度和深度可任意缩放.例如,可以将摄象机分离两倍的距离,并将场景中的点移远两倍的距离而不改变透视几何关系.仅通过标定点的投影是不可能确定基线长度,但这并不是一个严重的问题,和确定比例系数一样,基线长度可以通过其它的方法确定.现在,假定摄象机之间的平移量是单位矢量.求解相对定位问题可以得到旋转的三个参数和表示基线方向的单位矢量的两个参数.双目立体深度测量值是以基线长度为计量单位的.假定单位基线长度,意味着双目立体测量值可以用任意计量单位表示.在这个单位基线长度假设下得到的测量值是正确的,但仍未确定比例系数.点之间的相对距离是正确的.这些任意设置的计量单位值乘以基线长度可以得到真实计量单位值.12.7节将介绍如何确定基线距离,这也是求解绝对定位问题的一个部分.求解绝对定位问题得到绝对坐标变换.使用绝对坐标变换,任意计量单位立体测量值到真实计量单位的转换和点在观察者坐标系到绝对坐标系的变换可以同步进行.方程组()含有12个相对位置参数和2个与场景点有关的未知数,因此若有n 个标定点,则有122+n 个未知量,旋转矩阵是正交矩阵,由此可以产生6个约束,另一个约束是基线距离取单位值的约束。

计算机视觉三维测量与建模-参考答案汇总 第1--8章

计算机视觉三维测量与建模-参考答案汇总 第1--8章

第一章大数据财务决策概论一、数字影像的概念?常见的数字影像的类型有哪些?物理世界的物体针对不同频段的电磁波具有不同的辐射、吸收和透射特性。

通常数字影像的成像过程是传感器将接收到的辐射、反射或透射的电磁波,从光信号转换为电信号,再转换为数字信号的过程。

彩色影像、灰度影像、二值影像、深度图影像、多光谱影像、伪彩色影像。

二、摄影几何的意义以及摄影几何数学表达的优点有哪些?射影几何学也叫投影几何学,在经典几何学中,射影几何处于一个特殊的地位,通过它可以把其他一些几何学联系起来。

在射影几何学中,把无穷远点视为“理想点”。

欧氏直线再加上一个无穷点就是射影几何中的直线,如果一个平面内的两条直线平行,那么这两条直线就交于这两条直线共有的无穷远点。

使用射影几何进行数学表达的优点包括:(1)提供了一个统一的框架来表示几何图元,如点、线和平面;(2)可以在无穷远处以直接的方式操作点、线和平面;(3)为许多几何操作(如构造、交集和变换)提供了线性表示方式。

三、为了描述光学成像的过程,通常需要引入几种坐标系,分别进行说明。

1.世界坐标系为了描述观测场景的空间位置属性,第一个需要建立的基本的三维坐标系是世界坐标系,也被称为全局坐标系。

2.像空间辅助坐标系第二类坐标系是像空间辅助坐标系,也被称为相机空间坐标系。

它类似于摄影测量学中的像空间辅助坐标系,是以摄像机为分析基准的坐标系,也是从三维空间转换到二维空间的一个桥梁。

3.像平面坐标系第三个重要的坐标系是像平面坐标系。

摄像机对三维场景拍照,属于透视投影变换,是将观测点的坐标值从三维空间转换到二维空间的射影变换。

四、基于不同的测量原理,主动式扫描仪系统可以分为几类?1.飞行时间扫描仪TOF类型的扫描仪通过测量从发射端发出的辐射波到目标表面的往返时间来计算目标表面点的距离。

2.相移扫描仪相移扫描仪利用正弦调制的强度随时间变换的激光束进行测量。

通过观测发射信号和反射信号的相位差,计算目标与传感器之间的往返距离。

北理工贾云德《计算机视觉》chapter08纹理

北理工贾云德《计算机视觉》chapter08纹理

第八章纹理8.1 引言纹理是以象素的邻域灰度空间分布为特征的,因此无法用点来定义.纹理尺度与图像分辨率有关,例如,从远距离观测由地板砖构成的地板时,我们看到的是地板砖块构成的纹理,而没有看到地板砖本身的纹理模式,当在近距离(只能看到几块砖的距离)观测同样的场景时,我们开始察觉到每一块砖上的详细模式,如图8.1所示.关于图像纹理的精确定义迄今还没有一个统一的认识.一般地来说,纹理是指图像强度局部变化的重复模式.纹理形成的机理是图像局部模式变化太小,一般无法在给定的分辨率下把不同的物体或区域分开.这样,在一个图像区域中重复出现满足给定灰度特性的一个连通像素集合构成了一个纹理区域.最简单的例子是在白色背景下黑点的重复模式.打印在白纸上的一行行字符也构成了纹理,其中的每一个灰度级基元是由表示每一个字符的连通像素集合构成;把一个个字符放在一行,把一行行字放在一页,就得到一个纹理.(a) 远距离观察时的纹理图像(b) 近距离观察时的纹理图像图8.1 由地板砖构成的地板纹理示意图实际上,对纹理的研究有两个目的,一种是研究纹理的观赏特性,即如何设计具有特定效果的纹理,使之具有一定美学价值或自然逼真效果,这是计算机图形学所研究的主要目标.另一种是研究纹理图像的特性,即纹理分析,以便分类和识别场景,这是机器视觉追求的目标.也就是说,对机器视觉来说,纹理是为了分割和识别场景或物体表面类型而产生的一种视觉标记.纹理分析包含有三个主要的问题:纹理分类、纹理分割和从纹理恢复形状.在纹理分类中,问题变成了从给定的一组纹理集中识别给定的纹理区域.例如,一幅特定的航空照片可能属于海洋、陆地或是城区,每一类都对应着唯一的纹理特征.对于每一类纹理,还可以精细划分,比如,根据纹理的粗细特征划分纹理.在海洋波浪方面,波浪的波长越长,图像的纹理越粗.由于波长与浪高有密切的关系,浪高信息也可以从纹理中获得.在土地纹理方面,森林比灌木林的纹理细,湿地和沼泽比森林和灌木林的纹理更细.用于纹理分析的算法很多,这些方法可大致分为统计分析和结构分析两大类.统计方法被广泛地用于纹理分析中.为了强化分类,可以从灰度图像计算灰度同现(co-occurrence) 矩阵、对比度(contrast)、熵(entropy)以及均匀度(homogeneity)等纹理特性.当纹理基元很小并成为微纹理时,统计方法特别有用;相反,当纹理基元很大时,应使用结构化方法,即首先确定基元的形状和性质,然后,再确定控制这些基元位置的规则,这样就形成了宏纹理.另一种自底而上的纹理特性分析方法是基于模型的方法,这种方法首先假定一个纹理模型,然后通过图像区域估计模型参数。

北理工贾云德《计算机视觉》chapter11深度图

北理工贾云德《计算机视觉》chapter11深度图

135 第十一章 深度图获取场景中各点相对于摄象机的距离是计算机视觉系统的重要任务之一.场景中各点相对于摄象机的距离可以用深度图(Depth Map)来表示,即深度图中的每一个像素值表示场景中某一点与摄像机之间的距离.机器视觉系统获取场景深度图技术可分为被动测距传感和主动深度传感两大类.被动测距传感是指视觉系统接收来自场景发射或反射的光能量,形成有关场景光能量分布函数,即灰度图像,然后在这些图像的基础上恢复场景的深度信息.最一般的方法是使用两个相隔一定距离的摄像机同时获取场景图像来生成深度图.与此方法相类似的另一种方法是一个摄象机在不同空间位置上获取两幅或两幅以上图像,通过多幅图像的灰度信息和成象几何来生成深度图.深度信息还可以使用灰度图像的明暗特征、纹理特征、运动特征间接地估算.主动测距传感是指视觉系统首先向场景发射能量,然后接收场景对所发射能量的反射能量.主动测距传感系统也称为测距成象系统(Rangefinder).雷达测距系统和三角测距系统是两种最常用的两种主动测距传感系统.因此,主动测距传感和被动测距传感的主要区别在于视觉系统是否是通过增收自身发射的能量来测距。

另外,我们还接触过两个概念:主动视觉和被动视觉。

主动视觉是一种理论框架,与主动测距传感完全是两回事。

主动视觉主要是研究通过主动地控制摄象机位置、方向、焦距、缩放、光圈、聚散度等参数,或广义地说,通过视觉和行为的结合来获得稳定的、实时的感知。

我们将在最后一节介绍主动视觉。

11.1 立体成象最基本的双目立体几何关系如图11.1(a)所示,它是由两个完全相同的摄象机构成,两个图像平面位于一个平面上,两个摄像机的坐标轴相互平行,且x 轴重合,摄像机之间在x 方向上的间距为基线距离b .在这个模型中,场景中同一个特征点在两个摄象机图像平面上的成象位置是不同的.我们将场景中同一点在两个不同图像中的投影点称为共轭对,其中的一个投影点是另一个投影点的对应(correspondence),求共轭对就是求解对应性问题.两幅图像重叠时的共轭对点的位置之差(共轭对点之间的距离)称为视差(disparity),通过两个摄象机中心并且通过场景特征点的平面称为外极(epipolar)平面,外极平面与图像平面的交线称为外极线.在图11.1 中,场景点P 在左、右图像平面中的投影点分为p l 和p r .不失一般性,假设坐标系原点与左透镜中心重合.比较相似三角形PMC l 和p LC l l ,可得到下式:Fx z x l '= (11.1) 同理,从相似三角形PNC r 和p RC l r ,可得到下式:Fx z B x r '=- (11.2) 合并以上两式,可得:rl x x BF z '-'= (11.3) 其中F 是焦距,B 是基线距离。

北理工贾云德《计算机视觉》chapter06边缘检测

北理工贾云德《计算机视觉》chapter06边缘检测

第六章边缘检测边缘(edge)是指图像局部强度变化最显著的部分.边缘主要存在于目标与目标、目标与背景、区域与区域(包括不同色彩)之间,是图像分割、纹理特征和形状特征等图像分析的重要基础.图像分析和理解的第一步常常是边缘检测(edge detection).由于边缘检测十分重要,因此成为机器视觉研究领域最活跃的课题之一.本章主要讨论边缘检测和定位的基本概念,并使用几种常用的边缘检测器来说明边缘检测的基本问题.图像中的边缘通常与图像强度或图像强度的一阶导数的不连续性有关.图像强度的不连续可分为:(1) 阶跃不连续,即图像强度在不连续处的两边的像素灰度值有着显著的差异;(2) 线条不连续,即图像强度突然从一个值变化到另一个值,保持一个较小的行程后又返回到原来的值.在实际中,阶跃和线条边缘图像是很少见的,由于大多数传感元件具有低频特性,使得阶跃边缘变成斜坡型边缘,线条边缘变成屋顶形边缘,其中的强度变化不是瞬间的,而是跨越一定的距离,这些边缘如图6.1所示.(a)(b)图6.1 两种常见的边缘,(a) 阶跃函数,(b) 线条函数.其中第一排为理想信号,第二排对应实际信号对一个边缘来说,有可能同时具有阶跃和线条边缘特性.例如在一个表面上,由一个平面变化到法线方向不同的另一个平面就会产生阶跃边缘;如果这一表面具有镜面反射特性且两平面形成的棱角比较圆滑,则当棱角圆滑表面的法线经过镜面反射角时,由于镜面反射分量,在棱角圆滑表面上会产生明亮光条,这样的边缘看起来象在阶跃边缘上叠加了一个线条边缘.由于边缘可能与场景中物体的重要特征对应,所以它是很重要的图像特征。

比如,一个物体的轮廓通常产生阶跃边缘,因为物体的图像强度不同于背景的图像强度.在讨论边缘算子之前,首先给出一些术语的定义:边缘点:图像中具有坐标],[j i 且处在强度显著变化的位置上的点.边缘段:对应于边缘点坐标],[j i 及其方位θ,边缘的方位可能是梯度角.边缘检测器:从图像中抽取边缘(边缘点和边缘段)集合的算法.轮廓:边缘列表,或是一条表示边缘列表的拟合曲线.边缘连接:从无序边缘表形成有序边缘表的过程.习惯上边缘的表示采用顺时针方向来排序.边缘跟踪:一个用来确定轮廊的图像(指滤波后的图像)搜索过程.边缘点的坐标可以是边缘位置像素点的行、列整数标号,也可以在子像素分辨率水平上表示.边缘坐标可以在原始图像坐标系上表示,但大多数情况下是在边缘检测滤波器的输出图像的坐标系上表示,因为滤波过程可能导致图像坐标平移或缩放.边缘段可以用像素点尺寸大小的小线段定义,或用具有方位属性的一个点定义.请注意,在实际中,边缘点和边缘段都被称为边缘.由边缘检测器生成的边缘集可以分成两个子集:真边缘集和假边缘集.真边缘集对应场景中的边缘,假边缘集不是场景中的边缘.还有一个边缘子集,即场景中漏检的边缘集.假边缘集称之为假阳性(false Positive ),而漏掉的边缘集则称之为假阴性(false Negative ). 边缘连接和边缘跟踪之间的区别在于:边缘连接是把边缘检测器产生的无序边缘集作为输入,输出一个有序边缘集;边缘跟踪则是将一幅图像作为输入,输出一个有序边缘集.另外,边缘检测使用局部信息来决定边缘,而边缘跟踪使用整个图像信息来决定一个像素点是不是边缘.6.1 梯度边缘检测是检测图像局部显著变化的最基本运算.在一维情况下,阶跃边缘同图像的一阶导数局部峰值有关.梯度是函数变化的一种度量,而一幅图像可以看作是图像强度连续函数的取样点阵列.因此,同一维情况类似,图像灰度值的显著变化可用梯度的离散逼近函数来检测.梯度是一阶导数的二维等效式,定义为向量⎥⎥⎦⎤⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡=f x f y x G G y x G ∂∂∂),((6.1)有两个重要的性质与梯度有关:(1) 向量),(y x G 的方向就是函数),(y x f 增大时的最大变化率方向;(2) 梯度的幅值由下式给出:22|),(|y x G G y x G += (6.2)在实际应用中,通常用绝对值来近似梯度幅值:y x G G y x G +=|),(| (6.3)或),max(|),(|y x G G y x G ≈ (6.4)由向量分析可知,梯度的方向定义为)/arctan(),(x y G G y x a = (6.5)其中α角是相对x 轴的角度.注意梯度的幅值实际上与边缘的方向无关,这样的算子称为各向同性算子(isotropic operators).对于数字图像,方程6.1的导数可用差分来近似.最简单的梯度近似表达式为],1[],[],[]1,[j i f j i f G j i f j i f G y x +-=-+= (6.6)请注意j 对应于x 轴方向,而i 对应于负y 轴方向.这些计算可用下面的简单卷积模板来完成 11-=x G 11-=y G (6.7) 在计算梯度时,计算空间同一位置x 和y 处的真实偏导数是至关重要的.然而采用上面公式计算的梯度近似值x G 和y G 并不位于同一位置,x G 实际上是内插点 [,/]i j +12处的梯度近似值,y G 是内插点],2/1[j i +处的梯度近似值.由于这个缘故,人们常常使用22⨯一阶差分模板(而不用21⨯或 12⨯模板)来求x 和y 的偏导数:1111--=x G 1111--=y G (6.8) 用上式计算x 和y 方向梯度的位置是相同的,这一点位于内插点]2/1,2/1[++j i 处,即在22⨯邻域的所有四个像素点之间.不过这种计算可能会导致一些混淆,所以,通常用33⨯邻域计算梯度值.这一方法将在下一节讨论.6.2 边缘检测算法边缘检测算法有如下四个步骤:滤波:边缘检测算法主要是基于图像强度的一阶和二阶导数,但导数的计算对噪声很敏感,因此必须使用滤波器来改善与噪声有关的边缘检测器的性能.需要指出,大多数滤波器在降低噪声的同时也导致了边缘强度的损失,因此,增强边缘和降低噪声之间需要折衷.增强:增强边缘的基础是确定图像各点邻域强度的变化值.增强算法可以将邻域(或局部)强度值有显著变化的点突显出来.边缘增强一般是通过计算梯度幅值来完成的.检测:在图像中有许多点的梯度幅值比较大,而这些点在特定的应用领域中并不都是边缘,所以应该用某种方法来确定哪些点是边缘点.最简单的边缘检测判据是梯度幅值阈值判据.定位:如果某一应用场合要求确定边缘位置,则边缘的位置可在子像素分辨率上来估计,边缘的方位也可以被估计出来.在边缘检测算法中,前三个步骤用得十分普遍。

北理工贾云德《计算机视觉》第九章 彩色感知

北理工贾云德《计算机视觉》第九章 彩色感知

白色 紫色线
纯彩色
CIE 1931年x-y色度图
Computer Vision Department of Computer Science @BIT
规范化XYZ颜色空间(Nxyz)
• 色度图中的颜色范围可以表示成直线段或 多边形. 互补色 主波段
Computer Vision
Department of Computer Science @BIT
几种颜色模型在x-y 色度图中的位置:
R NTSC 制式 PAL 制式 CIE 模型 彩色监视器 (0.670,0.323) (0.640,0.330) (0.735,0.265) (0.628,0.346)
G (0.214,0.710) (0.290,0.600,) (0.274,0.717) (0.268,0.588)

RGB颜色空间
• 红、绿、蓝三基色光的波长国际标准分别 为:700nm, 546.1nm, 435.8nm • 标准白光的RGB光通量按以下比例混合而成: Φ r : Φ g : Φ b = 1 : 4 .5907 : 0 .0601 相应的红、绿、蓝光作为单位基色量 • 任意一种彩色光的光通量为:
Computer Vision
Department of Computer Science @BIT
三种锥体感受器的光谱敏感示意图 (Wald, 1964)
Computer Vision Department of Computer Science @BIT
RGB模型
• 用红(Red, R)、绿(Green, G)、蓝(Blue, B)三种 颜色作为三基色,通过三基色的加权混合形成 各种颜色. • RGB模型构成颜色表示的基础,其他颜色表示 方法可以通过对RGB模型的变换得到.

《计算机视觉》知识要点总结终极

《计算机视觉》知识要点总结终极

1、、。

;视觉是人类观察世界、认知世界的重要功能手段。

人类从外界获得信息约有80%来自视觉系统。

2、计算机视觉是指用计算机实现人类的视觉功能,即对客观世界中三维场景的感知、加工和理解。

计算机视觉的研究方法只有有两种:一种是仿生学的方法,参照人类视觉系统的结构原理,建立相应的处理模块完成类似的功能和工作;另一种是工程的方法,即从分析人类视觉过程的功能着手,并不刻意模拟人,视觉系统内部结构,而仅考虑系统的输入和输出,并采用任何现有的手段来实现系统的功能。

计算机视觉主要研究目标有两个:一是建立计算机视觉系统来完成各种视觉任务;二是把该研究作为探索人脑视觉工作机理的手段,即生物学机理。

3、计算机视觉系统的功能模块主要有以下几个模块:图像采集、预处理、基元检测、目标分割、表达描述、形状分析等,参考下图1.4.14、整个视觉过程是由光学过程,化学过程和神经处理过程这3个顺序的子过程所构成。

光学过程:我们需要掌握的是人眼水平截面的示意图,见图2.1.1。

光学过程基本确定了成像的尺寸。

类似照相机。

化学过程:视网膜表面的光接收细胞可分为:锥细胞(亮视觉)和柱细胞(暗视觉)。

化学过程,基本确定了成像的亮度或颜色。

神经处理过程:将对光的感觉转换为对景物的知觉。

视觉处理过程流图2.1,2如下:5、形状知觉是对景物各部分相对关系的知觉,也与视野中各种空间关系的知觉有关。

6、轮廓(封闭的边界)是形状知觉中最基本的概念,人在知觉一个形状以前一定先看到轮廓。

轮廓的构成如果用数学语言来说就是轮廓对应亮度的二阶导数。

轮廓与形状又有区别,轮廓不等于形状。

轮廓在帮助构成形状时还有“方向性”。

轮廓通常倾向于对它所包围的空间发生影响,即轮廓一般是向内部而不是向外部发挥构成形状的作用。

7、主观轮廓:在没有直接刺激作用下产生的轮廓知觉。

主观轮廓的形成是在一定感觉信息的基础上进行知觉假设的结果8、空间知觉的问题本质是一个深度感知的问题。

人对空间场景的深度感知主要依靠双目视觉实现。

北理工贾云德《计算机视觉》第九章 明暗分析

北理工贾云德《计算机视觉》第九章 明暗分析

ρd ρd = ∫∫ Lr ,s ( X , θ i , φi ) cos θ i sin θ i dθ i dφi = Li ( X ) π π
Computer Vision
Department of Computer Science @BIT
Lambertian表面的辐射度
• 表面辐射度与光源和辐照角度有关,不同的表 面点可能具有相同的或不同的感觉亮度. • 均匀照明
Computer Vision
Department of Computer Science @BIT
镜面
• Phong镜面模型: 辐射度与 cos n (δθ ) = cos n (θ r − θ s ) 成比例
Lr ( X , θ r , φr ) = ρ s ( X )Lr ( X , θ s , φs ) cos n (θ s − θ r )
Computer Vision
Department of Computer Science @BIT
双向反射分布函数
• 到达表面的辐照度与所引起的辐射度的比例
Lr ( X,θ r , φr ) = f (θ i , φi , θ r , θ r ) Li ( X,θ i , φi ) = f (θ i , φi , θ r , θ r ) Lr , s ( X,θ i , φi ) cos θ i dω
Lr ( X ,θ r , φr ) = ρ s ( X )Lr , s ( X , θ r , φr − π )
Computer Vision
Department of Computer Science @BIT
镜面
• 理想镜面很少,实际需考虑围绕镜面反射方向 的方向瓣,称为镜面瓣(specular lobe).

北理工贾云德《计算机视觉》chapter12标定

北理工贾云德《计算机视觉》chapter12标定

第12章标定本章将讨论各种摄象机系统及深度成像系统的标立方法.在摄影测量学领域中,已经建立了大量的摄象机和测距传感器标左方法•这些方法可以用来确左摄象机或测距传感器在场景中的位置和方向以及与场景坐标之间的关系.在摄影测量学中有以下四个标定问题:(1)绝对泄位:通过标上点确立两个坐标系在绝对坐标系统中的变换关系.或确立测距传感器在绝对坐标系中的位置和方向.(2)相对左位:通过场景中的标圧点投影确肚两个摄象机之间的相对位置和方向.(3)外部左位:通过场景中的标左点投影确龙摄象机在绝对坐标系中的位置和方向.(4)内部泄位:确左摄象机内部几何参数,包括摄象机常数,主点的位置以及透镜变形的修正量・这些标泄问题主要起源于高空摄影技术,是摄影测量中的经典问题•除了以上四个标左问题外,摄影测量学还解决以下两个问题:一是通过双目立体视差确定点在场景中的实际位鼬二是对立体图像对进行校正变换,使得立体图像对的外极线与图像的行平行以便简化后续处理(见第十一章).摄象机标左过程中涉及到以下几种坐标,场景坐标、摄象机坐标.图像坐标和像素坐标等,这些坐标已经在1・7中介绍成像基础知识时引入•确定这些坐标之间的关系就是本章所要讨论的各种标立问题的目的.12- 1刚体变换物体位宜和方向的任意变化都可以认为是刚体变换,因为物体的移动只改变英位宜和方向,并不改变英形状和大小.假泄通过两个处于不同位置的摄像机均可看到&点,P点在两个摄像机坐标系中的坐标分別是和心=(兀,〉'2山2)•显然两个摄象机位豊之间的变换是刚体运动,因此,P点在第一个视场中的坐标必可以通过旋转和平移变换到第二个视场中的坐标卩2,p2=RP1 +t (12. 1) 其中矩阵R是一个3x3的正交方阵,用于旋转变换:r xx金Q(12. 2)矢St = (/x J v J7)r表示平移,或者说点t是第一个坐标系原点在第二个坐标系上的坐标, 如图12・1所示.方程12・1可以认为是计算一个点经过旋转和平移以后的新坐标,或是计算空间中同一个点在不同坐标系中的坐标・前者用于刚体力学:在物体移动到一个新的位宜以后,讣算物体上一点的新坐标:后者用于标泄问题:同一点在不同观察位置上观察将会得到不同的坐标,这种不同可以由刚体变换确定,而标立问题就是来确左这种刚体变换.例如,考虑两个具有不同位置和姿态的摄象机观察场景中同一点,由于观察角度不同,这一点在两个摄像机坐标系中的坐标是不同的.设想旋转第一个摄象机,使其方向与第二个摄象机的方向相同:再设想将第一摄象机平移到第二摄象机的位置上,则两个摄彖机坐标系完全重合.12・1・1旋转矩阵空间角可用直角坐标系中的欧拉角描述:绕入轴旋转角0,绕新的y轴旋转角肖,绕新的Z 轴旋转角0,角&是光轴的俯仰角(pitch),也叫垂直角,角0是光轴的偏航角(yaw)(水平角),角0表示光轴滚动角(roll)或扭转角(twist).无转动(三个角都等于零)指的是两个坐标系统完全对正•各角度旋转正方向为从坐标系原点沿各轴正方向观察时的逆时针旋转方向・用这些角表示方程12・2定义的旋转矩阵各元素如下:r vv = cos 肖cos 0r vv = sin 0 sin 屮 cos 0—cos 0 sin 0r x: = cos 0 sin 屮 cos 0 + sin & sin 0r yx = cos 肖sin Qr>y =sin &sin ©sin 0 + cos&cos0 (12・ 3)r>: = cos0sin 0sin 0-sin &cos0r,v = _sin 0r,v = sin &cos0r:: = cos 8 cos 肖用欧拉角的形式来确左坐标索的旋转会引起数值解不稳泄,因为欧拉角很小的变化可能对应很大的旋转变化.因此,标左算法或者求解旋转矩阵的各元素常使用其它形式的旋转角表达式,如,四元数等.旋转矩阵是一个正交矩阵:R Z R = I (12. 4) 其中I表示单位矩阵.由上述公式不难得到旋转矩阵的逆就是该矩阵的转宜.标左算法会在坐标系之间产生刚体变换;例如,从坐标系1到坐标系2,我们有p2 = RP] +t2(12. 5) 刚体变换的逆变换就是将坐标系2的坐标变为坐标怎1的坐标:P)=R7 (p2 -t2) = R/p2+tj (12. 6) 这里的-表示坐标系上的/点是另一个坐标系的原点.注意平移变换的逆变换并不是简单的等于t]必须乘以旋转变换的逆变换,因为匚表示在坐标系2上的平移,苴逆变换一立要表示到与坐标系1同一个方位的坐标系中.A图12. 2欧拉角或俯仰角、偏航角和滚动角示意图12. 1. 2旋转轴旋转也可以规立为逆时针(右手坐标系)绕由单位矢量表示的轴的旋转.这是一种观察旋转的非常直观方法,但是它在数值计算上也有和欧拉角一样的问题.旋转轴和旋转角度表达式可以转换成矩阵表达式(方程12. 1),以作为刚体变换的公式.当然,如果能直接使用旋转轴和旋转角表达式来产生满意的数值解,将是最好不过的了.在这种思路的基础上产生了旋转四元数,这也是将四元数用于旋转表示的原因之一.12. 1. 3四元数四元数是一个四元矢量§ = (%的43,%),可用来表示坐标旋转.实践证明,对于左位求解问题,四元数表示可以给出很好的数值解.为了理解四元数是如何对旋转进行表示的,我们首先想象在二维平而X-),上的一个单位圆,单位圆上的任何一个位置都只对应于一个旋转角.如图所示・图12・3单位圆上一点(x,y)只能对应一个旋转角&再考虑三维空间中的单位球:x2 +y2 +z2 = 1 (12. 7)P2 =R(qb +(%如汀 (12. 17)在单位球上的任意一点只对应绕X 轴和y 轴旋转的两个角&和0,无法表示绕z 轴旋转 的第三个角0.显然,再增加一个自由度就可以表示所有三个旋转角.四维空间单位球泄义 如下:x 2 + v 2 +z 2 +6>2 =1 (12. 8)三维空间中所有三个旋转角可以通过四维单位球上的点来表示•由单位四元数表示的旋转公 式如下:q ( +鼻 +亦 +亦=1 (12. 9)每一个单位四元数和其反极点(antipole )-q = (-q (),-如,-的,-彳3)都表示三维空间中的旋 转・ 用单位四元数表示刚体变换的旋转矩阵:+ q; -q ; - q] 2((申2 一。

计算机视觉贾云德toreader

计算机视觉贾云德toreader

致读者
当我从科学出版社拿到《机器视觉》这本书时,翻看了几页就发现了若干错误。

继续看下去,令我十分紧张和不安,我发现了大量的错误:文字表述错误、有些内容晦涩、公式有错误、图有错误。

对此,我深感内疚和难过。

我试图想通过《机器视觉》教学网页来弥补,但由于某些原因,网页一直拖沓到现在。

前几天,科学出版社通知我,《机器视觉》已经第二次印刷了,这一消息更令我不安,加速建设网页势在必行。

网页包含有勘误表,为研究生上课使用的部分课件,部分思考题参考答案,还有部分程序和测试图像。

我们将不断丰富网页内容,不断增加视觉源程序。

我收到了大量的邮件,不少读者认为该书的体系结构比较完整。

实际上,这一体系并不是我独创的,只要看几所国外知名大学的计算机视觉教学大纲和几本国外知名的计算机视觉教材,就很容易得到本书所体现的结构。

尽管本书的体系结构较完整,但不少章节所表述的内容,在深度与广度方面还存在着较大的不平衡,比如,图像预处理的Gabor滤波、广义Hough变换、特征脸、彩色图像检索、摄像机自标定、主动视觉、三维重建等都是计算机视觉的基本内容,但本书论述的较少。

因此,我们将更新某些章节,逐步增加这些内容,并在网页上发布电子版本,供读者批评指正。

另外,关于小波特征、遗传算法、神经元网络等内容,由于有专门的著作和教材,因此,本书基本上不做论述。

本书各章节思考题和计算机练习题主要取自于国外教科书,显然有些习题不够严谨,有些不够先进,我们将在电子版中进行修订。

最后,感谢读者对本书的关注和支持。

贾云得
2002年7月于北京理工大学。

北理工贾云德《计算机视觉》chapter01引论

北理工贾云德《计算机视觉》chapter01引论

第一章引论人类在征服自然、改造自然和推动社会进步的过程中,面临着自身能力、能量的局限性,因而发明和创造了许多机器来辅助或代替人类完成任务.智能机器,包括智能机器人,是这种机器最理想的形式,也是人类科学研究中所面临的最大挑战之一.智能机器是指这样一种系统,它能模拟人类的功能,能感知外部世界并有效地解决人所能解决问题.人类感知外部世界主要是通过视觉、触觉、听觉和嗅觉等感觉器官,其中约80%的信息是由视觉获取的.因此,对于智能机器来说,赋予机器以人类视觉功能对发展智能机器是及其重要的,也由此形成了一门新的学科—机器视觉(也称计算机视觉或图像分析与理解等).机器视觉的发展不仅将大大推动智能系统的发展,也将拓宽计算机与各种智能机器的研究范围和应用领域.机器视觉是研究用计算机来模拟生物外显或宏观视觉功能的科学和技术.机器视觉系统的首要目标是用图像创建或恢复现实世界模型,然后认知现实世界.机器视觉系统获取的场景图像一般是灰度图像,即三维场景在二维平面上的投影.因此,场景三维信息只能通过灰度图像或灰度图像序列来恢复处理,这种恢复需要进行多点对一点的映射逆变换.在信息恢复过程中,还需要有关场景知识和投影几何知识.机器视觉是一个相当新且发展十分迅速的研究领域,并成为计算机科学的重要研究领域之一.机器视觉是在20世纪50年代从统计模式识别开始的[1],当时的工作主要集中在二维图像分析和识别上,如光学字符识别,工件表面、显微图片和航空图片的分析和解释等.60年代,Roberts(1965)通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述[Roberts 1965].Roberts 的研究工作开创了以理解三维场景为目的的三维机器视觉的研究.Roberts对积木世界的创造性研究给人们以极大的启发,许多人相信,一旦由白色积木玩具组成的三维世界可以被理解,则可以推广到理解更复杂的三维场景.于是,人们对积木世界进行了深入的研究,研究的范围从边缘、角点等特征提取,到线条、平面、曲面等几何要素分析,一直到图像明暗、纹理、运动以及成像几何等,并建立了各种数据结构和推理规则.到了70年代,已经出现了一些视觉应用系统[Guzman 1969, Mackworth 1973,].70年代中期,麻省理工学院(MIT)人工智能(AI)实验室正式开设“机器视觉”( Machine Vision)课程,由国际著名学者B.K.P.Horn教授讲授.同时,MIT AI 实验室吸引了国际上许多知名学者参与机器视觉的理论、算法、系统设计的研究,David Marr教授就是其中的一位.他于1973年应邀在MIT AI 实验室领导一个以博士生为主体的研究小组,1977年提出了不同于"积木世界"分析方法的计算视觉理论(computational vision),该理论在80年代成为机器视觉研究领域中的一个十分重要的理论框架.可以说,对机器视觉的全球性研究热潮是从20世纪80年代开始的,到了80年代中期,机器视觉获得了蓬勃发展,新概念、新方法、新理论不断涌现,比如,基于感知特征群的物体识别理论框架,主动视觉理论框架,视觉集成理论框架等.到目前为止,机器视觉仍然是一个非常活跃的研究领域.许多会议论文集都反应了该领域的最新进展,比如,International Conference on Computer Vision and Pattern Recognition(CVPR); International Conference on Computer Vision(ICCV); International Conference on Pattern Recognition(ICPR); International Conference on Robotics and Automation(ICRA); Workshop on Computer Vision, and numerous conferences of SPIE.还有许多学术期刊也包含了这一领域的最新研究成果, 如,IEEE Transaction on Pattern Analysis and Machine Intelligence(PAMI); Computer Vision, Graphics, and Image Processing(CVGIP); IEEE Transaction on Image Processing; IEEETransaction on Systems, Man, and Cybernetics(SMC); Machine Vision and Applications; International Journal on Computer Vision(IJCV); Image and Vision Computing; and Pattern Recognition.每年还出版许多研究专集、学术著作、技术报告,举行专题讨论会等.所有这些都是研究机器视觉及其应用的很好信息来源.1.2 Marr的视觉计算理论Marr的视觉计算理论[Marr1982]立足于计算机科学,系统地概括了心理生理学、神经生理学等方面业已取得的所有重要成果,是视觉研究中迄今为止最为完善的视觉理论.Marr建立的视觉计算理论,使计算机视觉研究有了一个比较明确的体系,并大大推动了计算机视觉研究的发展.人们普遍认为,计算机视觉这门学科的形成与Marr的视觉理论有着密切的关系.事实上,尽管20世纪70年代初期就有人使用计算机视觉这个名词[Binford,1971],但正是Marr 70年代末建立的视觉理论促使计算机视觉这一名词的流行.下面简要地介绍Marr的视觉理论的基本思想及其理论框架.1.2.1 三个层次Marr认为, 视觉是一个信息处理系统,对此系统研究应分为三个层次:计算理论层次,表示(representation)与算法层次,硬件实现层次,如表1-1所示.表1-1按照Marr的理论,计算视觉理论要回答视觉系统的计算目的和策略是什么,或视觉系统的输入和输出是什么,如何由系统的输入求出系统的输出.在这个层次上,信息系统的特征是将一种信息(输入)映射为另一种信息(输出).比如,系统输入是二维灰度图像,输出则是三维物体的形状、位置和姿态,视觉系统的任务就是如何建立输入输出之间的关系和约束,如何由二维灰度图像恢复物体的三维信息.表示与算法层次是要进一步回答如何表示输入和输出信息,如何实现计算理论所对应的功能的算法,以及如何由一种表示变换成另一种表示,比如创建数据结构和符号.一般来说,不同的输入、输出和计算理论,对应不同的表示,而同一种输入、输出或计算理论可能对应若干种表示.在解决了理论问题和表示问题后,最后一个层次是解决用硬件实现上述表示和算法的问题,比如计算机体系结构及具体的计算装置及其细节.从信息处理的观点来看,至关重要的乃是最高层次,即计算理论层次.这是因为构成知觉的计算本质,取决于解决计算问题本身,而不取决于用来解决计算问题的特殊硬件.换句话说,通过正确理解待解决问题的本质,将有助于理解并创造算法.如果考虑解决问题的机制和物理实现,则对理解算法往往无济于事.上述三个层次之间存在着逻辑的因果关系,但它们之间的联系不是十分紧密,因此,某些现象只能在其中一个或两个层次上进行解释.比如神经解剖学原则上与第三层次即物理实现联系在一起.突触机制、动作电位、抑制性相互作用都在第三个层次上.心理物理学与第二层次(即表示与算法)有着更直接的联系.更一般地说,不同的现象必须在不同的层次上进行解释,这会有助于人们把握正确的研究方向.例如,人们常说,人脑完全不同于计算机,因为前者是并行加工的,后者是串行的.对于这个问题,应该这样回答:并行加工和串行加工是在算法这个层次上的区别,而不是根本性的区别, 因为任何一个并行的计算程序都可以写成串行的程序.因此,这种并行与串行的区别并不支持这种观点,即人脑的运行与计算机的运算是不同的,因而人脑所完成的任务是不可能通过编制程序用计算机来完成.1.2.2 视觉表示框架视觉过程划分为三个阶段, 如表1-2所示.第一阶段(也称为早期阶段)是将输入的原始图像进行处理,抽取图像中诸如角点、边缘、纹理、线条、边界等基本特征,这些特征的集合称为基元图(primitive sketch);第二阶段(中期阶段)是指在以观测者为中心的坐标系中,由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等,这些信息的包含了深度信息,但不是真正的物体三维表示,因此,称为二维半图(2.5 dimensional sketch);在以物体为中心的坐标系中,由输入图像、基元图、二维半图来恢复、表示和识别三维物体的过程称为视觉的第三阶段(后期阶段).Marr理论是计算机视觉研究领域的划时代成就,但该理论不是十分完善的,许多方面还有争议.比如,该理论所建立的视觉处理框架基本上是自下而上,没有反馈.还有,该理论没有足够地重视知识的应用.尽管如此,Marr理论给了我们研究计算机视觉许多珍贵的哲学思想和研究方法,同时也给计算机视觉研究领域创造了许多研究起点.1.3 机器视觉的应用机器视觉技术正广泛地应用于各个方面,从医学图象到遥感图像,从工业检测到文件处理,从毫微米技术到多媒体数据库,不一而足.可以说,需要人类视觉的场合几乎都需要机器视觉.应该指出的是,许多人类视觉无法感知的场合,如精确定量感知、危险场景感知、不可见物体感知等,机器视觉更突显其优越性.下面是一些机器视觉的典型应用.(1)零件识别与定位由于工业环境的结构、照明等因素可以得到严格的控制,因此,机器视觉在工业生产和装配中得到了成功的应用.图1.1 是一个具有简单视觉的工业机器人系统示意图,其视觉系统由一个摄象机和相关的视觉信息处理系统组成.摄象机位于零件传输带上方,对于不同的零件,可以选择不同颜色的传输带,比如,明亮的物体,选择黑色传输带,暗色的零件,选择白色的背景,这样有利于视觉系统将零件从传输带上分离出来,并进行识别和定位,识别的目的是为机器人提供是否操作或进行何种操作的信息,定位的目的是导引机器人手爪实时准确地夹取零件.图1.1 用于生产线上具有简单视觉系统的工业机器人系统示意图(2)产品检验机器视觉在工业领域中另一个成功的应用是产品检验.目前已经用于产品外形检验、表面缺陷检验,比如,滑块及滑槽的外形检验以及装配后的位置检验,以决定它们能否装配在一起,并且准确无误地完成装配任务;发动机内壁麻点、刻痕等缺陷检查,以决定产品的质量.通过X射线照相或超声探测获取物体内部的图像,可以实现内部缺陷检验,如钢梁内部裂纹和气孔等缺陷检验.(3) 移动机器人导航我们来看一下图1.2所示的两组图像,每一组图像称为一个立体对(stereo pair),是由移动机器人上的两个摄象机同步获取的,表示某一时刻关于场景的不同视点的两幅图像.机器人利用立体对可以恢复周围环境的三维信息.移动机器人可以利用场景的三维信息识别目标、识别道路、判断障碍物等,实现道路规划、自主导航,与周围环境自主交互作用等.将立体图像对和运动信息组合起来,可以构成满足特定任务分辨率要求的场景深度图.这种技术对无人汽车、无人飞机、无人战车等自主系统的自动导航十分有用.比如,著名的美国Sojourner和Rocky7等系列火星探测移动机器人都使用了立体视觉导航系统.图1.2 由移动机器人立体视觉系统获取的立体图像对,可用来重建场景三维信息(4)遥感图像分析目前的遥感图像包括三种:航空摄影图像、气象卫星图像、资源卫星图像.这些图像的共同特点是在高空对地表或地层进行远距离成像,但三种图像的成像机理完全不同.航空图像可以用普通的视频摄象机来获取,分析方法也同普通的图像分析一样.卫星图像的获取和应用随着成像机理不同而变化很大,气象卫星使用红外成像传感系统可以获取不同云层的图像,即云图,由此分析某一地区的气象状况;海洋卫星使用合成孔径雷达获取海洋、浅滩图像,由此重构海洋波浪三维表面图;资源卫星装备有多光谱探测器(multiple spectral sensor, MSS),可以获取地表相应点的多个光谱段的反射特性,如红外、可见光、紫外等,多光谱图像被广泛地用于找矿、森林、农作物调查、自然灾害测报、资源和生态环境检测等.(5)医学图像分析目前医学图像已经广泛用于医学诊断,成像方法包括传统的X射线成像、计算机层析(computed tomography, CT)成像、核磁共振成像(magnetic resonance imaging, MRI)、超声成像等.机器视觉在医学图像诊断方面有两方面的应用,一是对图像进行增强、标记、染色等处理来帮助医生诊断疾病,并协助医生对感兴趣的区域进行定量测量和比较;二是利用专家知识系统对图像(或是一段时期内的一系列图像)进行自动分析和解释,给出诊断结果.(6)安全鉴别、监视与跟踪用机器视觉系统可以实现停车场监视、车辆识别、车牌号识别、探测并跟踪“可疑”目标;根据面孔、眼底、指纹等特征识别特定人。

《计算机视觉从感知到重建》随笔

《计算机视觉从感知到重建》随笔

《计算机视觉从感知到重建》读书随笔目录一、内容简述 (2)1.1 计算机视觉的重要性 (3)1.2 视觉感知与重建的关联 (4)二、计算机视觉的基本概念 (5)2.1 计算机视觉的定义 (7)2.2 计算机视觉的应用领域 (8)2.3 计算机视觉的发展历程 (9)三、视觉感知的原理与方法 (11)3.1 视觉感知的生理机制 (12)3.2 视觉感知的计算模型 (13)3.3 视觉感知的主要任务 (15)四、图像处理与特征提取 (16)4.1 图像处理的基本操作 (18)4.2 特征提取的方法与技术 (19)4.3 特征选择与特征匹配 (20)五、三维重建与场景理解 (21)5.1 三维重建的基本原理 (23)5.2 从二维图像到三维场景的转换 (24)5.3 场景理解与物体识别 (25)六、深度学习在计算机视觉中的应用 (27)6.1 深度学习概述 (28)6.2 深度学习在图像分类中的应用 (29)6.3 深度学习在目标检测中的应用 (31)6.4 深度学习在语义分割中的应用 (33)七、计算机视觉技术的挑战与未来展望 (34)7.1 计算机视觉面临的挑战 (36)7.2 计算机视觉的未来发展趋势 (38)7.3 计算机视觉技术的应用前景 (39)八、结语 (41)8.1 本书总结 (42)8.2 对计算机视觉未来的展望 (44)一、内容简述《计算机视觉从感知到重建》是一本深入探讨计算机视觉领域的著作。

本书的内容主要涵盖了计算机视觉的基本原理、技术方法和应用领域,以及从感知到重建的整个过程。

在第一部分,书中介绍了计算机视觉的基本概念和发展历程,为读者提供了一个清晰的知识背景。

书中详细阐述了感知部分的原理,包括图像获取、图像预处理、特征提取等关键技术,为读者理解计算机如何“看”世界打下了基础。

书中详细介绍了从感知到认知的转换过程,包括目标识别、图像分类、语义分割等技术方法。

在这一部分,作者通过丰富的实例和案例,展示了计算机视觉在实际应用中的价值和潜力。

视觉感知 相关书籍

视觉感知 相关书籍

视觉感知相关书籍视觉感知是指人类通过视觉系统获取和处理外部世界信息的能力。

视觉感知不仅是我们日常生活的基础,也是科学研究中的重要内容之一。

以下是几本关于视觉感知的相关书籍,可以作为参考内容:1. 《The Visual Brain in Action》- A. David Milner, Melvyn A. Goodale这本书详细介绍了大脑如何处理视觉信息,并将其转化为实际行为和决策。

书中讨论了视觉感知的基本原理以及大脑中与视觉相关的不同区域的功能。

2. 《Vision: A Computational Investigation into the Human Representation and Processing of Visual Information》- David Marr本书是经典的计算机视觉领域的著作之一,作者从计算机科学的角度探讨了视觉感知,并提出了一种用于分析和理解视觉过程的框架。

3. 《Perception and Imaging: Photography – A Way of Seeing》- Richard D. Zakia这本书介绍了摄影艺术与视觉感知的关系。

通过讲解摄影技术和视觉感知的基本原理,作者帮助读者提高他们的视觉感知能力,并以新的视角欣赏和理解摄影作品。

4. 《Sensation and Perception》- E. Bruce Goldstein这本教科书系统地介绍了感觉和知觉的原理和过程。

书中涵盖了视觉感知的各个方面,包括视觉神经系统、色彩、深度感知等,并且提供了实验和案例研究来支持理论分析。

5. 《Visual Intelligence: How We Create What We See》- DonaldD. Hoffman这本书探索了视觉系统如何组织和解释视觉信息,以及我们是如何通过感知和推断来创造和理解我们的视觉世界的。

书中讨论了视觉感知的进化和发展,以及与语言、意识和理性的关系。

彩色摄像机颜色分辨力测量

彩色摄像机颜色分辨力测量

典型的颜色精度测试是通过颜色测试卡来进行 颜色测试,然而这种方法工作量大,而且无法测试不 同空间频率的色差。文献[2]和文献[3]中使用两路能产 生特定颜色共轭像的光源及平行光管组成的颜色分 辨力测量系统都需要由人来对彩色摄像机颜色分辨 力进行主观判断。本文提出了通过标定的颜色光源产 生双路控制四杆靶标图像,并结合图像算法对靶标图 像中的目标进行探测和识别的颜色分辨力测量系统 将会更加客观、有效地实现颜色精度和分辨力的测 量。
第 42 卷 第 5 期 2020 年 5 月
红外技术 Infrared Technology
Vol.42 No.5 May 2020
彩色摄像机颜色分辨力测量
徐记伟 1,杜 仙 2,方海棠 3,邢冀川 1
(1. 北京理工大学 光电学院,北京 100081;2. 国网宜昌供电公司信息通信分公司,湖北 宜昌 443000; 3. 塔里木油田公司信息与通讯技术中心,新疆 库尔勒 841000)
文章编号:1001-8891(2020)05-0468-05
Measurement of Color Resolution for Color Cameras
XU Jiwei1,DU Xian2,FANG HaiTang3,XING Jichuan1
(1. Beijing Institute of Technology, School of Optics and Photonics, Beijing 100081, China; 2. State Grid Yichang Power Supply Company Information &Telecommunication Branch, Yichang 433000, China;
色差(minimum resolvable E difference,MRED)和最小可探测色差(minimum detectable E difference,

北理工贾云德《计算机视觉》第六章 边缘检测

北理工贾云德《计算机视觉》第六章 边缘检测

3)幅值和方位角:
M [i , j ] = P [i, j ] 2 + Q [i, j ] 2
θ [i, j ] = arctan (Q[i, j ] / P[i, j ] )
Computer Vision Department of Computer Science @BIT
4)非极大值抑制(NMS ) : 细化幅值图像中的屋脊带,即只保留幅值局部变化最大的 点. *将梯度角的变化范围减小到圆周的四个扇区之一, *方向角:
Computer Vision
Department of Computer Science @BIT
Computer Vision
Department of Computer Science @BIT
3 梯度 梯度是一阶导数的二维等效式,定义为矢量
f G x ∂ ∂x G ( x , y ) = = ∂f G y ∂y
Department of Computer Science @BIT
这一近似式是以点 [ i,j+1] 为中心的.用 j-1 替换:
Computer Vision
Department of Computer Science @BIT
用算子表示:

2
0 ≈ 1 0
1 − 4 1
0 1 0
希望邻域中心点具有更大的权值

2
1 ≈ 4 1
4 − 20 4
1 4 1
Computer Vision
Department of Computer Science @BIT
(2) 二阶方向导数
已知图像曲面,方向导数为
∂f ∂f ( x, y ) ∂f ( x, y ) = sin θ + cos θ ∂θ ∂x ∂y
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

125第十章 彩色感知前面几章主要讨论了二维数字图像,图像的灰度值一般表示光强,光强是两个空间变量的函数),(y x f .实际上,光是由不同波段的光谱组成的,一幅图像常常对应一个波段或多个波段光谱样本,因此,图像灰度值是两个空间变量和一个光谱变量的函数),,(λy x f .我们称这样的图像为多光谱图像(multi-spectral image),其中的每一个波段称为一个通道.比如,气象卫星获取的云图,其波段是红外波段;扇形束B型超声诊断仪输出的图像,其波段是超声波段.通常进入我们眼睛的光是由各种波段的光组成的混合光,很少是纯粹的单一波段的光.单色光只有在人工实验室条件下,利用单色仪或单色滤光片才能观察到.混合光中各种波长光的量的比例不同而会呈现不同的颜色,例如,短波光能量较大时呈现蓝色,长波光能量较大时则呈现红色.场景或物体的颜色是由照射光源的光谱成分、光线在物体上反射和吸收的情况决定的.比如,一个蓝色物体在日光下观察呈现蓝色,是由于这个物体将日光中的蓝光反射出来,而吸收了光谱中的其它部分的光谱.而同样的蓝色物体,在红色的光源照射下,则呈现红紫色.对于机器视觉系统,彩色图像还与成象系统敏感器的光谱响应有关.本章的讨论中,假设表面是不透明的,场景表面上一点(,,)x y z 的位置由图像平面坐标(,)''x y 表示.由于我们在本章一直使用以观察者为中心的坐标系,所以图像平面坐标系中的上标撇将被省略.10.1 三色原理我们知道,可见光的波长分布在380nm 到780nm 之间,人的颜色感觉是不同波长的可见光刺激人的视觉器官的结果.在可见光的波段内,随着波长的增长,使人产生紫、蓝、青、绿、黄、橙、红等颜色的感觉.我们知道,人的视网膜上有两类细胞:杆体细胞和锥体细胞.杆体细胞灵敏度高,能感受微弱的光;锥体细胞灵敏度低,但能很好地区分颜色.为了解释视觉对颜色的感知能力,美国物理学家T .Young 1801年提出三色假说,后来由Helmholtz 加以发展,形成著名的Young-Helmholtz 三色学说.三色假说的中心内容是:假设有三种视觉(锥体)感受器,分别对红、绿、蓝三种颜色敏感;当光线同时作用在这三种感受器上时,三个感受器产生的兴奋程度不同;不同兴奋程度的组合将产生不同的颜色感觉,三种感受器处于等强度兴奋时,便产生白色的感觉.现代技术的发展充分证实了三色假说的合理性.比如,采用反射分光光度法、显微分光光度法和单细胞电生理学方法证实,人类视网膜中确实含有三种不同的光敏感性视色素.在光照射下,它们吸收某些波长的光而反射另一些波长的光,每一种锥体细胞色素对光谱不同部位的敏感性是不同的。

根据[Wald 1964]对人类色彩视觉的研究结果,三种锥体细胞的光谱吸收的峰值分别在nm 430、nm 540和nm 570左右,这三个区间分别对应红、绿和蓝波段,如图10.1所示.由于这个原因,这三种颜色被称为人类视觉的三基色。

实践证明,光谱上的大多数颜色都可以用红(Red)、绿(Green)、蓝(Blue)三种单色加权混合产生,基于RGB 三基色的颜色表示称为RGB 颜色模型.RGB 颜色模型在工业中得到了广泛的应用,如视频监视器显示用的是RGB 颜色模型,彩色摄象机输出用的是RGB 彩色模型.126图10.1 三种感受器的光谱敏感示意图[Wald,1964]10.2 颜色模型为了使用RGB 三基色有效地描述或混合各种颜色。

人们还根据RGB 三基色模型提出了CMY 颜色模型,XYZ 颜色模型,YIQ 颜色模型,HSV 颜色模型,HLS 颜色模型等,以适应不同应用的需求。

下面将简要介绍这些模型的特点及其相互转换表示.10.2.1 RGB 和CMY 颜色模型根据RGB 三基色原理,各种颜色的光都可以由红、绿和蓝三种基色加权混合而成,这可以用图10.2所示的RGB 直角坐标定义的单位立方体来说明.坐标原点(0,0,0)表示黑色,坐标点(1,1,1)表示白色,在坐标轴上的三个顶点表示RGB 三个基色.因此,彩色空间是三维的线性空间,任意一种具有一定亮度的颜色光都可用空间中的一个点或一个向量表示.因此我们可以选择具有确定光通量的红、绿、蓝三基色作为这三维空间的基,这样组成的表色系统称为RGB 表色系统.国际公认的RGB 表色系统的三基色光的波长为nm R 0.700=,nm G 1.546=,nm B 8.435=.在RGB 表色系统中,标准白光的RGB 光通量b g r ΦΦΦ,,按以下比例混合而成:0601.0:5907.4:1::=ΦΦΦb g r (10.1)通常把光通量为1流明的红光,5907.4流明的绿光,0601.0流明的蓝光作为三基色的“单位基色量”,用(R)、(G)、(B)表示.因此,任何一种具有一定亮度的彩色光C 的光通量为:)()()()(B B G G R R C ++= (10.2)其中B G R ,,为每种原基色的比例系数.例如,对某种蓝绿色,可以用下式表示:)(63.0)(31.0)(06.0)(B G R C ++= (10.3)上式)(C 表示彩色光的明亮程度.显然,光的色度只取决于B G R ,,之间的比例关系.如果不考虑光的亮度,只对色度感兴趣,则只要知道B G R ,,的相对值即可.因此可以令:127 B G R B b BG R G g BG R Rr++=++=++= (10.4) b g r ,,称为色度坐标.由于b g r ++=1,因此只有两个色度坐标是独立的,这也说明色度空间是二维的.图10.2是一个以g r -为色度坐标给出的RGB 表色系统的色度图,标准白光位于31==g r .图10.2 RGB 单位立方体 图10.3 MCY 单位立方体128图10.4 g r -色度图从图10.2可知,在坐标轴上的三个顶点表示RGB 三个基色,各种颜色的光都可以由红、绿和蓝三种基色加权混合而成.显然,另外三个顶点:青(Cyan),品红(Magenta),黄(Yellow)和RGB 一样,也可构成一组基色,称为CMY 颜色模型,各种颜色的光都可以由CMY 三种基色加权混合而成.在实际应用中,RGB 颜色模型用于磷粉屏幕的颜色生成,是一个由黑到白的过程,称为增色处理.CMY 颜色模型主要用来描述绘图和打印彩色输出的颜色,因为这类彩色的形成是在白纸或其它印刷介质上生成的,是一个由白到黑过程,称之为减色过程.图10.3表示CMY 模型的单位立方体.使用CMY 的打印处理通常需要四个墨点的集合来产生颜色点,CMY 三基色各对应一个墨点,黑色对应第四个墨点.这是因为CMY 三基色混合仅能生成深灰色,所以黑色应单独作为一个墨点.这在某种程度上与RGB 监视器使用的三个磷粉点的集合是一样的.显然,RGB 和CMY 之间的关系如下:⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡B G R Y M C 111 (10.5) 10.2.2 CIE-XYZ 颜色模型由图10.4可见,使用RGB 模型生成颜色时,用于产生颜色的原基色比例系数出现负值,使用起来十分不便.同时,不同研究者所用的三基色和标准白色不同,使得研究结果很难比较.因此,1931年国际照明委员会CIE (Commission Internationale del Elairage —the International Commission on Illumination)规定了一种新的颜色表示系统,定义为CIE-XYZ 颜色模型.XYZ 颜色模型把彩色光表示为:)()()(Z Z Y Y X X C ++= (10.6)其中,)(),(),(Z Y X 是XYZ 颜色模型的基色量,Z Y X ,,为三色比例系数.XYZ 表色系统须满足如下三个条件:1. 三色比例系数Z Y X ,,皆大于零;2. Y 的数值正好是彩色光的亮度;3. 当Z Y X ==时仍然表示标准白光.根据以上条件,可以得到RGB 颜色模型与XYZ 颜色模型的关系式.⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡B G R Z Y X 5943.50565.00000.00601.05907.40000.11302.17517.17689.2)()()( (10.7)对XYZ 颜色模型的三基色规范化,得到如下色度坐标:129ZY X Z z ZY X Y y ZY X Xx ++=++=++= (10.8) CIE y x -色度图见图10.5.曲线上的点是电磁光谱中的纯彩色,按波长的顺序从光谱的红色端到紫色端方向来标明.连接红色和紫色光谱点的直线称为紫色线,它并不属于光谱.色度图中内部的点表示所有可能的可见颜色组合,其中C 点对应于31==y x ,表示白色.在实际中,C 点通常作为白光源或日光色度的近似值.色度图中的颜色范围可以表示成直线段或多边形.图10.6 中从1C 和2C 连线上所有颜色可通过混合适量的1C 和2C 颜色而得到.由于两点的颜色范围是一条直线,一对互补色在色度图上一定表示成位于C 的相反方向且用C 连接的一直线连接的两点,即用一定量的1C 和2C 就可得到白色.将C 与1C 的连线延伸到与色度图相交于s C ,颜色1C 就可以表示成白光C 与光谱颜色s C 的加色混合.因此,1C 的主波段是s C .对于3C ,其主波段点p C 位于紫色线上.由于紫色线不在可见光谱中,因此需要将C 与3C 连线向相反方向延伸,与色度图相交于sp C ,则颜色3C 就可以表示成白光C 与光谱颜色p C 补点sp C 的减色混合.三点的颜色范围是由该三点连成的三角形,图15.7是由RGB 三基色构成的颜色三角形.由图可见,三基色只能产生三角形内部或边上的颜色,而无法产生三角形以外的颜色.因此,色度图可以帮助我们理解为什么任何一种三基色组可以通过加色混合生成所有的颜色.130图10.5 CIE1931年y x -色度图图10.6 用y x -色度图确定色彩示意图10.2.3 NTSC -YIQ 表色模型RGB 工业监视器要求一幅彩色图像由分开的RGB 信号组成,而电视监视器需要混合信号输入.为此,美国国家电视系统委员会(National Television System Committee ,NTSC )采用YIQ 彩色模型,其主要的优点是可以保证彩色电视和黑白电视的兼容,即可以用彩色收看黑白电视图像。

YIQ 是以CIE 的XYZ 颜色模型为基础,其参数Y 与XYZ 中的模型参数相同,是图像的亮度信息.在没有色度的情况下,Y 也就对应于黑白图像,或者说,黑白电视只接收Y 信号.由于人眼对颜色的相对视见度不同,所以选择三色的基色量为114.0587.0299.0===B G R因此亮度信号Y 为B G R Y 114.0587.0299.0++= (10.9)规定如下色差信号:)(41.0)(48.0)(27.0)(74.0Y B Y R Q Y B Y R I -+-=---=(10.10)131 由此可见,在色度图上,参数I 包含有橙-青颜色信息,参数Q 包含有绿-品红颜色,I 和Q 混合可以提高颜色的色调和饱和度.将(10.9)和(10.10)结合起来得到YIQ 与RGB 间的转换关系为:⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡---=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡B G R Q I Y 312.0523.0211.0322.0274.0596.0114.0587.0299.0 (10.11)这里的RGB 是NTSC 制式RGB .10.3 颜色的视觉处理10.3.1 颜色的三个基本属性从视觉的角度来讲,颜色可分为彩色和非彩色两大类。

相关文档
最新文档