第03章 北理工贾云德《计算机视觉》--二值化的例子

合集下载

北理工贾云德《计算机视觉》chapter12标定

北理工贾云德《计算机视觉》chapter12标定

第12章 标定本章将讨论各种摄象机系统及深度成像系统的标定方法.在摄影测量学领域中,已经建立了大量的摄象机和测距传感器标定方法.这些方法可以用来确定摄象机或测距传感器在场景中的位置和方向以及与场景坐标之间的关系.在摄影测量学中有以下四个标定问题:(1) 绝对定位:通过标定点确定两个坐标系在绝对坐标系统中的变换关系,或确定测距传感器在绝对坐标系中的位置和方向.(2) 相对定位:通过场景中的标定点投影确定两个摄象机之间的相对位置和方向.(3) 外部定位:通过场景中的标定点投影确定摄象机在绝对坐标系中的位置和方向.(4) 内部定位:确定摄象机内部几何参数,包括摄象机常数,主点的位置以及透镜变形的修正量.这些标定问题主要起源于高空摄影技术,是摄影测量中的经典问题.除了以上四个标定问题外,摄影测量学还解决以下两个问题:一是通过双目立体视差确定点在场景中的实际位置,二是对立体图像对进行校正变换,使得立体图像对的外极线与图像的行平行以便简化后续处理(见第十一章).摄象机标定过程中涉及到以下几种坐标,场景坐标、摄象机坐标、图像坐标和像素坐标等,这些坐标已经在1.7中介绍成像基础知识时引入.确定这些坐标之间的关系就是本章所要讨论的各种标定问题的目的.12.1 刚体变换物体位置和方向的任意变化都可以认为是刚体变换,因为物体的移动只改变其位置和方向,并不改变其形状和大小.假定通过两个处于不同位置的摄像机均可看到θ点,p 点在两个摄像机坐标系中的坐标分别是和()2222,,z y x =p .显然两个摄象机位置之间的变换是刚体运动,因此,p 点在第一个视场中的坐标p 1可以通过旋转和平移变换到第二个视场中的坐标2p ,t Rp p +=12(12.1)其中矩阵R 是一个33⨯的正交方阵,用于旋转变换:⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=zz zy zx yz yy yxxz xy xx r r r r r r r r r R (12.2) 矢量T z y x t t t ),,(=t 表示平移,或者说点t 是第一个坐标系原点在第二个坐标系上的坐标,如图12.1所示.图12.1 两个摄像机坐标系方程12.1可以认为是计算一个点经过旋转和平移以后的新坐标,或是计算空间中同一个点在不同坐标系中的坐标 .前者用于刚体力学:在物体移动到一个新的位置以后,计算物体上一点的新坐标;后者用于标定问题:同一点在不同观察位置上观察将会得到不同的坐标,这种不同可以由刚体变换确定,而标定问题就是来确定这种刚体变换.例如,考虑两个具有不同位置和姿态的摄象机观察场景中同一点,由于观察角度不同,这一点在两个摄像机坐标系中的坐标是不同的.设想旋转第一个摄象机,使其方向与第二个摄象机的方向相同;再设想将第一摄象机平移到第二摄象机的位置上,则两个摄象机坐标系完全重合. 12.1.1旋转矩阵空间角可用直角坐标系中的欧拉角描述:绕x 轴旋转角θ,绕新的y 轴旋转角ψ,绕新的z 轴旋转角φ,角θ是光轴的俯仰角(pitch),也叫垂直角,角ψ是光轴的偏航角(yaw)(水平角),角φ表示光轴滚动角(roll)或扭转角(twist).无转动(三个角都等于零)指的是两个坐标系统完全对正.各角度旋转正方向为从坐标系原点沿各轴正方向观察时的逆时针旋转方向.用这些角表示方程12.2定义的旋转矩阵各元素如下:ψθψθψφθφψθφθφψθφψφθφψθφθφψθφψcos cos cos sin sin cos sin sin sin cos cos cos sin sin sin sin cos sin sin cos sin cos sin cos cos sin sin cos cos ==-=-=+==+=-==zz zy zx yz yy yx xz xy xx r r r r r r r r r(12.3)用欧拉角的形式来确定坐标系的旋转会引起数值解不稳定,因为欧拉角很小的变化可能对应很大的旋转变化.因此,标定算法或者求解旋转矩阵的各元素常使用其它形式的旋转角表达式,如,四元数等.旋转矩阵是一个正交矩阵:I R R =T (12.4)其中I 表示单位矩阵.由上述公式不难得到旋转矩阵的逆就是该矩阵的转置.标定算法会在坐标系之间产生刚体变换;例如,从坐标系1到坐标系2,我们有212t Rp p += (12.5)刚体变换的逆变换就是将坐标系2的坐标变为坐标系1的坐标:12221)(t p R t p R p +=-=T T (12.6)这里的i t 表示坐标系上的i 点是另一个坐标系的原点.注意平移变换的逆变换并不是简单的等于2t 必须乘以旋转变换的逆变换,因为2t 表示在坐标系2上的平移,其逆变换一定要表示到与坐标系1同一个方位的坐标系中 .图12.2 欧拉角或俯仰角、偏航角和滚动角示意图12.1.2旋转轴旋转也可以规定为逆时针(右手坐标系)绕由单位矢量(,,)ωωωx y z 表示的轴的旋转.这是一种观察旋转的非常直观方法,但是它在数值计算上也有和欧拉角一样的问题.旋转轴和旋转角度表达式可以转换成矩阵表达式(方程12.1),以作为刚体变换的公式.当然,如果能直接使用旋转轴和旋转角表达式来产生满意的数值解,将是最好不过的了.在这种思路的基础上产生了旋转四元数,这也是将四元数用于旋转表示的原因之一.12.1.3 四元数四元数是一个四元矢量()432,1,,q q q q q =,可用来表示坐标旋转.实践证明,对于定位求解问题,四元数表示可以给出很好的数值解.为了理解四元数是如何对旋转进行表示的,我们首先想象在二维平面x y -上的一个单位圆,单位圆上的任何一个位置都只对应于一个旋转角.如图所示.图12.3 单位圆上一点),(y x 只能对应一个旋转角θ再考虑三维空间中的单位球:x y z 2221++= (12.7)在单位球上的任意一点只对应绕x 轴和y 轴旋转的两个角θ和ψ,无法表示绕z 轴旋转的第三个角φ.显然,再增加一个自由度就可以表示所有三个旋转角.四维空间单位球定义如下:x y z 22221+++=ω (12.8)三维空间中所有三个旋转角可以通过四维单位球上的点来表示.由单位四元数表示的旋转公式如下:q q q q 021222321+++= (12.9)每一个单位四元数和其反极点(antipole)-=----q (,,,)q q q q 0123都表示三维空间中的旋转.用单位四元数表示刚体变换的旋转矩阵:()()()⎢⎢⎢⎣⎡-+--+=203130212322212022q q q q q q q q q q q q q R ()()103223212220302122q q q q q q q q q q q q +--+- ()()222123201032203122q q q q q q q q q q q q --+-+⎤⎦⎥⎥⎥ (12.10) 在计算出单位四元数之后,就可利用上式计算旋转矩阵.单位四元数与上节描述的旋转角和旋转轴有密切关系.旋转可以用旋转量θ和旋转轴方向()ωωωx y z ,,的组合来表示,即四元数由一个与旋转量有关的标量和一个旋转轴矢量组成 .设旋转轴的单位矢量为()ωωωx y z ,,,使用i ,j 和k 表示坐标轴,则旋转轴单位矢可以表示为: ωωωx y z i j k ++(12.11)绕该轴逆时针旋转θ角的单位四元数为: ()k j i k j i z y x z y x q q q q q +++=+++=02sin 2cos ωωωθθ (12.12)上式的第一项为四元数的标量(实)部分,其余项为矢量(虚)部分.空间点p =(x,y,z)的四元数r 实际上只有矢量部分(虚部),该矢量就是空间点p 的矢量表示.k j i r z y x ++=(12.13)设'p 是点p 通过矩阵()R q 旋转得到, ()p q p R =' (12.14)若r 是点p 的四元数表示,那么对旋转后点的四元数表示'r 可以由四元数q 直接计算:'=*r qrq (12.15)这里的()q *=---q q q q x y z 0,,,,是q 的共轭四元数:四元数乘法定义如下: ),,,(00000000q r q r q r q r q r q r q r q r q r q r q r q r q r q r q r q r z x y y x z x z y z x y y z z y x x z z y y x x +-+++--++---=rq (12.16) 刚体变换可以很方便地用七个元素()6543210,,,,,,q q q q q q q 表示,前四个量是单位四元数,后三个量是平移量.在这一表达式中,若用R(q)表示对应于单位四元数的旋转矩阵,则刚体变换式为:()()T q q q R 65412,,+=p q p (12.17)12.2 绝对定位绝对定位问题是确定两个坐标系之间的刚体变换问题.求解绝对定位问题在机器视觉中有着许多应用,其中的一个应用是确定测距成像系统或双目立体视觉系统与定义在场景中的绝对坐标系之间的关系,这样可以将所有的测量值均表示在一个公共的坐标系里.若()c c c c z y x ,,=p 表示点在摄象机坐标系中的坐标,()a a a a z y x ,,=p 表示点在绝对坐标系中的坐标,则绝对坐标定位问题的输入就是一个共轭对组:),{(1,1,a c p p ,),(2,2,a c p p ,...,)},(,,n a n c p p .为了求解绝对定位问题,我们把刚体变换方程展开,以便说明旋转矩阵中各项的作用.设c p 是摄象机坐标系内的点,p a 是绝对坐标系内的点,从p c 到p a 的刚体变换公式为:zc zz c zy c zx a y c yz c yy c yx a xc xz c xy c xx a t z r y r x r z t z r y r x r y t z r y r x r x +++=+++=+++=(12.18)其中12个未知参数中有9个是旋转矩阵参数r ,3个是平移参数t .每个共轭对),(a c p p 对应有三个等式,则至少需要四个共轭对产生12个方程才能解出12个未知数.在实际应用过程中,常常使用大量的共轭对(这些共轭对通常是空间标定点在不同坐标系中的表示)来提高计算精度.在解线性系统方程时,如果旋转矩阵R 没有正交标准化,则可能得不到有效的旋转矩阵.使用非标准正交矩阵作为旋转矩阵可能会产生意想不到的结果,如不能保证矩阵转置一定等于矩阵逆,并且共轭对的测量误差会严重地影响计算结果,从而不能产生刚体变换的最佳逼近.有些方法是在每一步迭代过程之后对矩阵进行正交化,但仍不能保证正交化的矩阵是旋转矩阵的最佳逼近.一种替代的方法是求解旋转角而不是矩阵的各项元素.旋转角最一般的表示方法是欧拉角,不过使用欧拉角会导致非线性方程,从而产生数值计算上的困难.在摄影测量中,通常的做法是对非线性方程线性化并求解,以便得到名义值的修正值.这种线性化算法的成功与否很大程度上取决于初始预估值好坏.下面讨论用单位四元数表示方法求刚体变换.设)(q R 是对应于单位四元数q 的旋转矩阵,则摄象机坐标系上的每一点坐标转换成绝对坐标的刚体变换公式如下:()c i c i a R t p q p +=,, (12.19)其中c t 是摄象机原点在绝对坐标系中的位置.现在的回归问题有七个参数:表示旋转的单位四元数的四个参数加上平移矢量的三个参数.正如前面所指出的,绝对定位问题的输入是共轭对集合:),{(1,1,a c p p ,),(2,2,a c p p ,…,)},(,,n a n c p p .考虑一组点的两种集合表示,在摄象机坐标系中的点集{}n a p p p p ,2,1,,,,Λa a a =和绝对坐标系中的点集{}n p p p p ,2,1,,,,c c c c Λ=.绝对定位问题就是在空间中将这两个点群对正.下面计算每个点集的矩中心: ∑==ni i a a n 1,1p p (12.20) ∑==ni i c c n 1,1p p (12.21)用矩中心与每一个点相减得: r p p a i a i a ,,=-(12.22) r p p c i c i c ,,=-(12.23)若已知旋转矩阵)(q R ,则平移表达式可表示为: ()c c p q R p t a -= (12.24)下面将讨论求解旋转矩阵,使得这两簇射线对正.在推导旋转矩阵时,将点表示为从矩中心出发的射线,这样所有坐标都将是射线坐标.由于射线束是由共轭对集合推导的,因此,我们可以知道在摄象机射线束中的某一条射线对应于绝对坐标射线的那一条射线.当两组射线对正后,每一对对应射线将会重合.换句话说,每一对射线位于同一条直线上,并指向同一方向.若不考虑测量误差的影响,则每对射线之间的夹角应为0,夹角的余弦为1.测量误差导致射线束不能完全对正.但可以在最小方差的意义上,通过求解旋转矩阵R ()q 束得到最佳对正结果,其中旋转矩阵的求解是求每对射线标量积的极大值:()χ21=⋅=∑r q a i c i i n R r ,, (12.25)在四元数中,上面的和式可以表示为:()()rqr q qr qr a i c i i n c i a i i n ,,,,⋅=⋅==∑∑11 (12.26)上式可以变成二次表达式:()()()()q q q q q q q q q q q r qr N N N N N N N N T n i i T n i i a T i c T ni i a T i c T n i i a T i c n i i a i c =⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛===⋅∑∑∑∑∑=====11,,1,,1,,1,, (12.27) 假设q 对应一个列向量.则使二次式取极大值的单位四元数是对应于最大正特征值的特征向量.特征根可以利用[Horn 1987]给出的公式求解四阶多项式来确定,也可以利用标准数值方法[Press 1988]计算特征向量和特征值.矩阵N c i ,和N a i ,是由每个射线元素构成.设()r x y z c i c i c i c i ,,,,,=,()r x y z a i a i a i a i ,,,,,,=,那么:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡------=0000,,,,,,,,,,,,,i c i c i c i c i c i c i c i c i c i c i c i c j c x y z x z y y z x z y x N (12.28) ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡------=0000,,,,,,,,,,,,,i a i a i a i a i a i a i a i a i a i a i a i a j a x y z x z y y z x z y x N (12.29) 矩阵N 为:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡+--++-+-+-+-++------++=zz yy xx zy yz xz zx yx xy zy yz zz yy xx yx xy xz zx xz zx yx xy zz yy xx zy yz yx xy zy zx zy yz zz yy xx S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S N (12.30) 式中的和式S 是由摄象机坐标系和绝对坐标系的射线坐标元构成.其中,S kl 是求所有共轭对的摄象机坐标点的坐标k 坐标和在绝对坐标点的坐标l 坐标的乘积和:S kl kl c i a i i n ==∑,,1 (12.31)上述计算的结果是一个单位四元法,表示校准射线束的旋转变换.刚体变换可以作用于测距摄象机,双目立体视觉系统或任何其它深度测量系统产生的测量坐标值,以便把这是测量值变换到绝对坐标系统的测量坐标值 .12.3 相对定位相对定位问题是指用场景点在两个图像平面上的投影来确定两个摄象机坐标系之间的关系.相对定位问题是双目立体视觉系统标定的第一步.我们曾在第十一章讨论了沿极线匹配特征的双目立体视觉算法.为了简化表示,假定左、右图像平面上的外极线皆与图像阵列的行线重合,且对应的左、右图像阵列的行标号也相同.设场景点p 在左、右两个摄象机的视场范围内(见图11.1).点p 在左摄象机坐标系用),,(l l l l z y x =p 表示,在右摄象机坐标系内用),,(r r r r z y x =p 表示.点p 在左摄象机图像平面上的投影为'=''p l l l x y (,),在右摄象机图像平面上的投影为'=''p r (,)x y rr 设左右摄像机智的焦距分别为r l F F ,.由透视投影得到公式:l l l l z x F x =' ll l l z y F y =' (12.32) r r r r z x F x =' rr r r z y F y =' (12.33) 将左摄象机坐标系转换为右摄象机坐标系的刚体变换方程如下:zl zz l zy l zx r y l yz l yy l xy r xl xz l xy l xx r t z r y r x r z t z r y r x r y t z r y r x r x +++=+++=+++= (12.34)从透视投影方程()和()求出x y x l l r ,,和y r ,并将它们代入上面的刚体变换方程,得到一组共轭对投影之间的关系方程:rl l r r l l z l zz l zy l xz r l l r r l l yl yz l yy l xy r l l r r l l xl xz l xy l xx F F z z x z F t z r y r x r F F z z x z F t z r y r x r F F z z x z F t z r y r x r '=+'+'+''=+'+'+''=+'+'+' (12.35) 变换方程的旋转部分改变左摄象机的方位使之与右摄象机方位相同.而平移部分就是两个摄象机之间的基线.平移变量和深度变量在等式中以比值的形式出现,分别表示基线的长度和深度可任意缩放.例如,可以将摄象机分离两倍的距离,并将场景中的点移远两倍的距离而不改变透视几何关系.仅通过标定点的投影是不可能确定基线长度,但这并不是一个严重的问题,和确定比例系数一样,基线长度可以通过其它的方法确定.现在,假定摄象机之间的平移量是单位矢量.求解相对定位问题可以得到旋转的三个参数和表示基线方向的单位矢量的两个参数.双目立体深度测量值是以基线长度为计量单位的.假定单位基线长度,意味着双目立体测量值可以用任意计量单位表示.在这个单位基线长度假设下得到的测量值是正确的,但仍未确定比例系数.点之间的相对距离是正确的.这些任意设置的计量单位值乘以基线长度可以得到真实计量单位值.12.7节将介绍如何确定基线距离,这也是求解绝对定位问题的一个部分.求解绝对定位问题得到绝对坐标变换.使用绝对坐标变换,任意计量单位立体测量值到真实计量单位的转换和点在观察者坐标系到绝对坐标系的变换可以同步进行.方程组()含有12个相对位置参数和2个与场景点有关的未知数,因此若有n 个标定点,则有122+n 个未知量,旋转矩阵是正交矩阵,由此可以产生6个约束,另一个约束是基线距离取单位值的约束。

北理工贾云德《计算机视觉》chapter08纹理

北理工贾云德《计算机视觉》chapter08纹理

第八章纹理8.1 引言纹理是以象素的邻域灰度空间分布为特征的,因此无法用点来定义.纹理尺度与图像分辨率有关,例如,从远距离观测由地板砖构成的地板时,我们看到的是地板砖块构成的纹理,而没有看到地板砖本身的纹理模式,当在近距离(只能看到几块砖的距离)观测同样的场景时,我们开始察觉到每一块砖上的详细模式,如图8.1所示.关于图像纹理的精确定义迄今还没有一个统一的认识.一般地来说,纹理是指图像强度局部变化的重复模式.纹理形成的机理是图像局部模式变化太小,一般无法在给定的分辨率下把不同的物体或区域分开.这样,在一个图像区域中重复出现满足给定灰度特性的一个连通像素集合构成了一个纹理区域.最简单的例子是在白色背景下黑点的重复模式.打印在白纸上的一行行字符也构成了纹理,其中的每一个灰度级基元是由表示每一个字符的连通像素集合构成;把一个个字符放在一行,把一行行字放在一页,就得到一个纹理.(a) 远距离观察时的纹理图像(b) 近距离观察时的纹理图像图8.1 由地板砖构成的地板纹理示意图实际上,对纹理的研究有两个目的,一种是研究纹理的观赏特性,即如何设计具有特定效果的纹理,使之具有一定美学价值或自然逼真效果,这是计算机图形学所研究的主要目标.另一种是研究纹理图像的特性,即纹理分析,以便分类和识别场景,这是机器视觉追求的目标.也就是说,对机器视觉来说,纹理是为了分割和识别场景或物体表面类型而产生的一种视觉标记.纹理分析包含有三个主要的问题:纹理分类、纹理分割和从纹理恢复形状.在纹理分类中,问题变成了从给定的一组纹理集中识别给定的纹理区域.例如,一幅特定的航空照片可能属于海洋、陆地或是城区,每一类都对应着唯一的纹理特征.对于每一类纹理,还可以精细划分,比如,根据纹理的粗细特征划分纹理.在海洋波浪方面,波浪的波长越长,图像的纹理越粗.由于波长与浪高有密切的关系,浪高信息也可以从纹理中获得.在土地纹理方面,森林比灌木林的纹理细,湿地和沼泽比森林和灌木林的纹理更细.用于纹理分析的算法很多,这些方法可大致分为统计分析和结构分析两大类.统计方法被广泛地用于纹理分析中.为了强化分类,可以从灰度图像计算灰度同现(co-occurrence) 矩阵、对比度(contrast)、熵(entropy)以及均匀度(homogeneity)等纹理特性.当纹理基元很小并成为微纹理时,统计方法特别有用;相反,当纹理基元很大时,应使用结构化方法,即首先确定基元的形状和性质,然后,再确定控制这些基元位置的规则,这样就形成了宏纹理.另一种自底而上的纹理特性分析方法是基于模型的方法,这种方法首先假定一个纹理模型,然后通过图像区域估计模型参数。

北理工贾云德《计算机视觉》chapter11深度图

北理工贾云德《计算机视觉》chapter11深度图

135 第十一章 深度图获取场景中各点相对于摄象机的距离是计算机视觉系统的重要任务之一.场景中各点相对于摄象机的距离可以用深度图(Depth Map)来表示,即深度图中的每一个像素值表示场景中某一点与摄像机之间的距离.机器视觉系统获取场景深度图技术可分为被动测距传感和主动深度传感两大类.被动测距传感是指视觉系统接收来自场景发射或反射的光能量,形成有关场景光能量分布函数,即灰度图像,然后在这些图像的基础上恢复场景的深度信息.最一般的方法是使用两个相隔一定距离的摄像机同时获取场景图像来生成深度图.与此方法相类似的另一种方法是一个摄象机在不同空间位置上获取两幅或两幅以上图像,通过多幅图像的灰度信息和成象几何来生成深度图.深度信息还可以使用灰度图像的明暗特征、纹理特征、运动特征间接地估算.主动测距传感是指视觉系统首先向场景发射能量,然后接收场景对所发射能量的反射能量.主动测距传感系统也称为测距成象系统(Rangefinder).雷达测距系统和三角测距系统是两种最常用的两种主动测距传感系统.因此,主动测距传感和被动测距传感的主要区别在于视觉系统是否是通过增收自身发射的能量来测距。

另外,我们还接触过两个概念:主动视觉和被动视觉。

主动视觉是一种理论框架,与主动测距传感完全是两回事。

主动视觉主要是研究通过主动地控制摄象机位置、方向、焦距、缩放、光圈、聚散度等参数,或广义地说,通过视觉和行为的结合来获得稳定的、实时的感知。

我们将在最后一节介绍主动视觉。

11.1 立体成象最基本的双目立体几何关系如图11.1(a)所示,它是由两个完全相同的摄象机构成,两个图像平面位于一个平面上,两个摄像机的坐标轴相互平行,且x 轴重合,摄像机之间在x 方向上的间距为基线距离b .在这个模型中,场景中同一个特征点在两个摄象机图像平面上的成象位置是不同的.我们将场景中同一点在两个不同图像中的投影点称为共轭对,其中的一个投影点是另一个投影点的对应(correspondence),求共轭对就是求解对应性问题.两幅图像重叠时的共轭对点的位置之差(共轭对点之间的距离)称为视差(disparity),通过两个摄象机中心并且通过场景特征点的平面称为外极(epipolar)平面,外极平面与图像平面的交线称为外极线.在图11.1 中,场景点P 在左、右图像平面中的投影点分为p l 和p r .不失一般性,假设坐标系原点与左透镜中心重合.比较相似三角形PMC l 和p LC l l ,可得到下式:Fx z x l '= (11.1) 同理,从相似三角形PNC r 和p RC l r ,可得到下式:Fx z B x r '=- (11.2) 合并以上两式,可得:rl x x BF z '-'= (11.3) 其中F 是焦距,B 是基线距离。

计算机视觉40例从入门到深度学习(OpenCV Python

计算机视觉40例从入门到深度学习(OpenCV Python

16.1手写数字识别 16.2英文字母识别
17.1基本过程 17.2定位数独图像内的单元格 17.3构造KNN模型 17.4识别数独图像内的数字 17.5求解数独 17.6绘制数独求解结果 17.7实现程序 17.8扩展学习
18.1基本流程 18.2倾斜校正 18.3 HOG特征提取 18.4数据处理 18.5构造及使用SVM分类器 18.6实现程序 18.7参考学习
5.1位平面 5.2数字水印原理 5.3实现方法 5.4具体实现 5.5可视化水印 5.6扩展学习
6.1理论基础 6.2核心程序 6.3程序设计 6.4实现程序
7.1理论基础 7.2程序设计 7.3实现程序
8.1理论基础 8.2识别过程 8.3扩展学习:石头、剪刀、布的识别
9.1单道题目的识别 9.2整张答题卡识别原理 9.3整张答题卡识别程序
目录分析
第2章 Python基础
第1章数字图像基 础
第3章 OpenCV基础
1.1图像表示基础 1.2彩色图像的表示 1.3应用基础 1.4智能图像处理基础 1.5抽象
2.1如何开始 2.2基础语法 2.3数据类型 2.4选择结构 2.5循环结构 2.6函数 2.7模块
3.1基础 3.2图像处理 3.3感兴趣区域 3.4掩模 3.5色彩处理 3.6滤波处理 3.7形态学
27.1定位人脸 27.2绘制关键点 27.3勾勒五官轮廓 27.4人脸对齐 27.5调用CNN实现人脸检测
28.1表情识别 28.2驾驶员疲劳检测 28.3易容术 28.4年龄和性别识别
作者介绍
这是《计算机视觉40例从入门到深度学习(OpenCV-Python)》的读书笔记模板,暂无该书作者的介绍。
第25章人脸检 测

北理工贾云德《计算机视觉》chapter06边缘检测

北理工贾云德《计算机视觉》chapter06边缘检测

第六章边缘检测边缘(edge)是指图像局部强度变化最显著的部分.边缘主要存在于目标与目标、目标与背景、区域与区域(包括不同色彩)之间,是图像分割、纹理特征和形状特征等图像分析的重要基础.图像分析和理解的第一步常常是边缘检测(edge detection).由于边缘检测十分重要,因此成为机器视觉研究领域最活跃的课题之一.本章主要讨论边缘检测和定位的基本概念,并使用几种常用的边缘检测器来说明边缘检测的基本问题.图像中的边缘通常与图像强度或图像强度的一阶导数的不连续性有关.图像强度的不连续可分为:(1) 阶跃不连续,即图像强度在不连续处的两边的像素灰度值有着显著的差异;(2) 线条不连续,即图像强度突然从一个值变化到另一个值,保持一个较小的行程后又返回到原来的值.在实际中,阶跃和线条边缘图像是很少见的,由于大多数传感元件具有低频特性,使得阶跃边缘变成斜坡型边缘,线条边缘变成屋顶形边缘,其中的强度变化不是瞬间的,而是跨越一定的距离,这些边缘如图6.1所示.(a)(b)图6.1 两种常见的边缘,(a) 阶跃函数,(b) 线条函数.其中第一排为理想信号,第二排对应实际信号对一个边缘来说,有可能同时具有阶跃和线条边缘特性.例如在一个表面上,由一个平面变化到法线方向不同的另一个平面就会产生阶跃边缘;如果这一表面具有镜面反射特性且两平面形成的棱角比较圆滑,则当棱角圆滑表面的法线经过镜面反射角时,由于镜面反射分量,在棱角圆滑表面上会产生明亮光条,这样的边缘看起来象在阶跃边缘上叠加了一个线条边缘.由于边缘可能与场景中物体的重要特征对应,所以它是很重要的图像特征。

比如,一个物体的轮廓通常产生阶跃边缘,因为物体的图像强度不同于背景的图像强度.在讨论边缘算子之前,首先给出一些术语的定义:边缘点:图像中具有坐标],[j i 且处在强度显著变化的位置上的点.边缘段:对应于边缘点坐标],[j i 及其方位θ,边缘的方位可能是梯度角.边缘检测器:从图像中抽取边缘(边缘点和边缘段)集合的算法.轮廓:边缘列表,或是一条表示边缘列表的拟合曲线.边缘连接:从无序边缘表形成有序边缘表的过程.习惯上边缘的表示采用顺时针方向来排序.边缘跟踪:一个用来确定轮廊的图像(指滤波后的图像)搜索过程.边缘点的坐标可以是边缘位置像素点的行、列整数标号,也可以在子像素分辨率水平上表示.边缘坐标可以在原始图像坐标系上表示,但大多数情况下是在边缘检测滤波器的输出图像的坐标系上表示,因为滤波过程可能导致图像坐标平移或缩放.边缘段可以用像素点尺寸大小的小线段定义,或用具有方位属性的一个点定义.请注意,在实际中,边缘点和边缘段都被称为边缘.由边缘检测器生成的边缘集可以分成两个子集:真边缘集和假边缘集.真边缘集对应场景中的边缘,假边缘集不是场景中的边缘.还有一个边缘子集,即场景中漏检的边缘集.假边缘集称之为假阳性(false Positive ),而漏掉的边缘集则称之为假阴性(false Negative ). 边缘连接和边缘跟踪之间的区别在于:边缘连接是把边缘检测器产生的无序边缘集作为输入,输出一个有序边缘集;边缘跟踪则是将一幅图像作为输入,输出一个有序边缘集.另外,边缘检测使用局部信息来决定边缘,而边缘跟踪使用整个图像信息来决定一个像素点是不是边缘.6.1 梯度边缘检测是检测图像局部显著变化的最基本运算.在一维情况下,阶跃边缘同图像的一阶导数局部峰值有关.梯度是函数变化的一种度量,而一幅图像可以看作是图像强度连续函数的取样点阵列.因此,同一维情况类似,图像灰度值的显著变化可用梯度的离散逼近函数来检测.梯度是一阶导数的二维等效式,定义为向量⎥⎥⎦⎤⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡=f x f y x G G y x G ∂∂∂),((6.1)有两个重要的性质与梯度有关:(1) 向量),(y x G 的方向就是函数),(y x f 增大时的最大变化率方向;(2) 梯度的幅值由下式给出:22|),(|y x G G y x G += (6.2)在实际应用中,通常用绝对值来近似梯度幅值:y x G G y x G +=|),(| (6.3)或),max(|),(|y x G G y x G ≈ (6.4)由向量分析可知,梯度的方向定义为)/arctan(),(x y G G y x a = (6.5)其中α角是相对x 轴的角度.注意梯度的幅值实际上与边缘的方向无关,这样的算子称为各向同性算子(isotropic operators).对于数字图像,方程6.1的导数可用差分来近似.最简单的梯度近似表达式为],1[],[],[]1,[j i f j i f G j i f j i f G y x +-=-+= (6.6)请注意j 对应于x 轴方向,而i 对应于负y 轴方向.这些计算可用下面的简单卷积模板来完成 11-=x G 11-=y G (6.7) 在计算梯度时,计算空间同一位置x 和y 处的真实偏导数是至关重要的.然而采用上面公式计算的梯度近似值x G 和y G 并不位于同一位置,x G 实际上是内插点 [,/]i j +12处的梯度近似值,y G 是内插点],2/1[j i +处的梯度近似值.由于这个缘故,人们常常使用22⨯一阶差分模板(而不用21⨯或 12⨯模板)来求x 和y 的偏导数:1111--=x G 1111--=y G (6.8) 用上式计算x 和y 方向梯度的位置是相同的,这一点位于内插点]2/1,2/1[++j i 处,即在22⨯邻域的所有四个像素点之间.不过这种计算可能会导致一些混淆,所以,通常用33⨯邻域计算梯度值.这一方法将在下一节讨论.6.2 边缘检测算法边缘检测算法有如下四个步骤:滤波:边缘检测算法主要是基于图像强度的一阶和二阶导数,但导数的计算对噪声很敏感,因此必须使用滤波器来改善与噪声有关的边缘检测器的性能.需要指出,大多数滤波器在降低噪声的同时也导致了边缘强度的损失,因此,增强边缘和降低噪声之间需要折衷.增强:增强边缘的基础是确定图像各点邻域强度的变化值.增强算法可以将邻域(或局部)强度值有显著变化的点突显出来.边缘增强一般是通过计算梯度幅值来完成的.检测:在图像中有许多点的梯度幅值比较大,而这些点在特定的应用领域中并不都是边缘,所以应该用某种方法来确定哪些点是边缘点.最简单的边缘检测判据是梯度幅值阈值判据.定位:如果某一应用场合要求确定边缘位置,则边缘的位置可在子像素分辨率上来估计,边缘的方位也可以被估计出来.在边缘检测算法中,前三个步骤用得十分普遍。

北理工贾云德《计算机视觉》第九章 彩色感知

北理工贾云德《计算机视觉》第九章 彩色感知

白色 紫色线
纯彩色
CIE 1931年x-y色度图
Computer Vision Department of Computer Science @BIT
规范化XYZ颜色空间(Nxyz)
• 色度图中的颜色范围可以表示成直线段或 多边形. 互补色 主波段
Computer Vision
Department of Computer Science @BIT
几种颜色模型在x-y 色度图中的位置:
R NTSC 制式 PAL 制式 CIE 模型 彩色监视器 (0.670,0.323) (0.640,0.330) (0.735,0.265) (0.628,0.346)
G (0.214,0.710) (0.290,0.600,) (0.274,0.717) (0.268,0.588)

RGB颜色空间
• 红、绿、蓝三基色光的波长国际标准分别 为:700nm, 546.1nm, 435.8nm • 标准白光的RGB光通量按以下比例混合而成: Φ r : Φ g : Φ b = 1 : 4 .5907 : 0 .0601 相应的红、绿、蓝光作为单位基色量 • 任意一种彩色光的光通量为:
Computer Vision
Department of Computer Science @BIT
三种锥体感受器的光谱敏感示意图 (Wald, 1964)
Computer Vision Department of Computer Science @BIT
RGB模型
• 用红(Red, R)、绿(Green, G)、蓝(Blue, B)三种 颜色作为三基色,通过三基色的加权混合形成 各种颜色. • RGB模型构成颜色表示的基础,其他颜色表示 方法可以通过对RGB模型的变换得到.

北理工贾云德《计算机视觉》第六章 边缘检测

北理工贾云德《计算机视觉》第六章 边缘检测

3)幅值和方位角:
M [i , j ] = P [i, j ] 2 + Q [i, j ] 2
θ [i, j ] = arctan (Q[i, j ] / P[i, j ] )
Computer Vision Department of Computer Science @BIT
4)非极大值抑制(NMS ) : 细化幅值图像中的屋脊带,即只保留幅值局部变化最大的 点. *将梯度角的变化范围减小到圆周的四个扇区之一, *方向角:
Computer Vision
Department of Computer Science @BIT
Computer Vision
Department of Computer Science @BIT
3 梯度 梯度是一阶导数的二维等效式,定义为矢量
f G x ∂ ∂x G ( x , y ) = = ∂f G y ∂y
Department of Computer Science @BIT
这一近似式是以点 [ i,j+1] 为中心的.用 j-1 替换:
Computer Vision
Department of Computer Science @BIT
用算子表示:

2
0 ≈ 1 0
1 − 4 1
0 1 0
希望邻域中心点具有更大的权值

2
1 ≈ 4 1
4 − 20 4
1 4 1
Computer Vision
Department of Computer Science @BIT
(2) 二阶方向导数
已知图像曲面,方向导数为
∂f ∂f ( x, y ) ∂f ( x, y ) = sin θ + cos θ ∂θ ∂x ∂y

北理工贾云德《计算机视觉》第十三章 三维场景表示

北理工贾云德《计算机视觉》第十三章 三维场景表示
??????????????1233210uuuuaaaap??????????????????????????11233210321023vvvuuuvubbbbaaaap其中每一个系数都是一个三元矢量其中ai是三元行矢量bj是三元列矢量aibj的积是各坐标系数的双积该系数曲面为
第十三章 三维场景表示
x = rx cos s1 ϕ cos s2 θ y = ry cos s1 ϕ sin s2 θ z = rz sin s1 ϕ
−π / 2 ≤ ϕ ≤ π / 2 −π ≤θ ≤ π
渐变s1和s2值可生成形状渐变的超圆球 这些及其它超二次曲面形状的可以生成很 复杂的形状,如家具、闪电和其它金属构 成。
13.2.4 超二次曲面
由二次方程添加参数可生成超二次曲面 通过调整参数可以改变物体的形状。 增加的参数数目等同于物体的维数 (1)超椭圆 在超椭圆方程中,当x和y项的指数视 为变量时,笛卡儿超椭圆方程表示:
x y ( ) +( ) =1 rx ry
2 s 2 s
超椭圆参数方程:
x = rx cos s θ y = ry sin θ
]
⎡v3 ⎤ ⎢ 2⎥ ⎢v ⎥ ⎢v⎥ ⎢ ⎥ ⎢1⎥ ⎣ ⎦
其中, ai是三元行矢量 bj是三元列矢量 Ai,bj的积 是各 坐标系数的双积
该系数曲面为:
P(u,v)=UTMV
其中,
M是4×4矩阵,其元素是参数曲面的每一个坐标系数的矢 量. 张量积曲面是两曲线的积:一条曲线以u为坐标,另一条 以v为坐标.任何平行于坐标轴的平面和张量积三次多项式曲 面的交线都是三次多项式曲线.
场景分割 是将表示场景的网面分割成若干
部分,每一部分表示一个物体或一个特定 的区域,这样有利于物体识别、曲面精确 估计等后处理算法的实现.

北理工贾云德《计算机视觉》第十五章 三维运动估计

北理工贾云德《计算机视觉》第十五章 三维运动估计

′ y k +1
′ ⎛ xk ⎞ ⎜ ⎟ ′ 1)E⎜ y k ⎟ = 0 ⎜1⎟ ⎝ ⎠
外极线 方程
⎛ e00 ⎞ ⎜ ⎟ ⎜ e01 ⎟ ⎜e ⎟ ⎜ 02 ⎟ ⎜ e10 ⎟ ⎜ ⎟ e11 ⎟ = 0 ⎜ ⎜ e12 ⎟ ⎜ ⎟ e 20 ⎟ ⎜ ⎜e ⎟ ⎜ 21 ⎟ ⎜ 1 ⎟ ⎝ ⎠
′ ′ (x k +1 x k
rxz和ryz缩小α,zk放大α,方程仍然成立,因此产 生多义性。三帧或三帧以上图象上的四点就可以克服 这个问题。
15.1.2 基于正交投影的运动估计
将(15.2)小角度旋转矩阵代入(15.1),得到如下的正交投 影模型:
′ ′ ′ xk +1 = xk − φy k + ψz k + t x ′ ′ ′ y k +1 = φxk + y k − θz k + t y
15.1.3 透视投影模型
设空间点(x,y,z)在图象平面上的投影(x’,y’)。如果成象 模型为透视投影,则 x y
x′ = F z
y′ = F
z
根据(15.1)式有
⎛ x k +1 ⎞ ⎡ rxx ⎜ ⎟ ⎢ ⎜ y k +1 ⎟ = ⎢ ryx ⎜ z ⎟ ⎢r ⎝ k +1 ⎠ ⎣ zx rxy ryy rzy rxz ⎤ ⎛ x k ⎞ ⎛ t x ⎞ ⎛ xk ⎞ ⎜ ⎟ ⎥⎜ ⎟ ⎜ ⎟ ryz ⎥ ⎜ y k ⎟ + ⎜ t y ⎟ = R k ⎜ y k ⎟ + Tk ⎜z ⎟ rzz ⎥ ⎜ z k ⎟ ⎜ t z ⎟ ⎝ k⎠ ⎦⎝ ⎠ ⎝ ⎠
2n个方程,通 过最小二乘法 来求解
2.根据1得到的运动参数估计值,再对深度值{zi,k}进行估计。 将式(15.7)重新写为(15.8)

结合Canny算子的图像二值化_陈强

结合Canny算子的图像二值化_陈强

第17卷第6期2005年6月计算机辅助设计与图形学学报JO U RNAL OF COM PU T ER AI DED DESIGN &COM PU T ER GRA PHI CS V ol 17,No 6June,2005收稿日期:2003-12-12;修回日期:2004-07-05结合Canny 算子的图像二值化陈 强 朱立新 夏德深(南京理工大学计算机系 南京 210094)(chen2qiang@163 com)摘要 对经典的二值化方法Ostu 算法和Bernsen 算法中存在的缺点进行了分析,提出一种结合Canny 算子的图像二值化方法 该方法综合考虑了边缘信息和灰度信息,通过边缘附近种子点在高阈值二值化图像中的填充和低阈值图像对它的修补而得到二值化结果图像,较好地解决了经典二值化方法中存在的抗噪能力差、边缘粗糙、伪影现象等缺点 实验结果证明,该方法能够较好地解决低对比度图像和目标像素灰度不均匀图像的二值化问题 关键词 二值化;Canny;边缘检测;种子填充中图法分类号 T P391 4Image Binarization Based on Canny s OperatorChen Qiang Zhu Lixin Xia Deshen(The Comp uter Dep ar tment,Nanj ing Univ ersity o f Scie nc e and Technology,Nanj ing 210094)Abstract We propose a binarization algorithm based on Canny s operator after an investigation to the draw backs of the classic binarization algorithms,Ostu algorithm and Bernsen algorithm The algorithm uses both edge and intensity information,and generates the binarization image by filling the image,w hich was binarized using a hig h threshold,w ith seeds near edges of the Canny edg e imag e,and remedying it w ith the image binarized using a low threshold This method overcomes the draw backs in the classic binarization al gorithms:noise sensitivity,edg e coarseness,fake shadow etc The ex perimental results show that the method is effective on the binarization of low contrast im ages and the im ages in w hich object intensity is not uniformKey words binarization;Canny;edge detection;seed filling1 引 言二值化是模式识别、支票字符分割识别[1]、指纹识别[2]等应用的重要预处理技术 目前图像二值化方法主要有以下几种:(1)全局阈值法;(2)局部阈值法;(3)动态阈值法 全局阈值化方法实现简单,对于具有明显双峰直方图的图像效果明显,但对于低对比度和光照不均匀的图像效果不佳,抗噪能力差,因而应用范围受到极大限制 如Ostu[3]算法是一种经典的整体阈值方法,它反映了整个图像灰度分布情况,但它单一阈值的特性决定了它的抗噪能力较差 局部阈值法能处理较为复杂的情况,但往往忽略了图像的边缘特征,容易出现伪影现象 如经典的局部阈值化算法,Bernsen 算法[4],其阈值由考察点邻域的灰度确定,算法中不存在预定阈值,适应性较整体阈值法广,但是当窗口的宽度较小时,很容易出现伪影现象和目标的丢失;而当窗口宽度增大时,算法的速度将受到很大影响 动态阈值法充分考虑了像元的邻域特征,能够根据图像的不同背景情况自适应地改变阈值,可较精确地提取出二值图像,但它过渡地夸大了像元的邻域灰度的变化,会把不均匀灰度分布的背景分割到目标中去,带来许多不应出现的假目标文献[5]提出了一种综合全局二值化与边缘检测的图像分割方法,但它只是简单地将边缘信息和全局阈值相结合,仅在一定程度的弥补了全局阈值法的不足,对于字体本身灰度不均匀的情况考虑不够,得到的字体边缘也不够光滑 文献[6]提出了一种与文献[5]类似的二值化方法,它也是对边缘附近的像素做了特别处理,但如果目标内部的灰度较低时,则在二值化结果中就不能反映出来,因为它远离边界,同时灰度低于全局阈值本文结合由Canny 算子得到的边缘图和基于Canny 算法中的高低阈值连接原理,提出了一种新的图像二值化方法:先用Canny 算子对原图做边缘检测得到边缘图像,然后依据边缘图像自适应地得到高、低阈值 将边缘附近的非孤立低灰度点作为种子点,在由高阈值得到的二值图像中做种子填充,同时以边缘线和边缘线附近的高灰度点作为种子生长的屏障 另外,依据当前种子填充区域边缘点中种子点所占比重,判断此区域是否为目标区域 将种子填充后图像中灰度值低于低阈值的点置黑,最后将一些小连通区域作为噪声去除,从而得到最终的二值化图像2 结合C anny 算子的图像二值化2 1基本原理图1 印章图像图1所示为真实票据上的印章图像,图2所示为用Canny 算子[7]对图1做边缘检测得到的边缘图像 从图2可以看出:真实目标的边缘丢失少,虚假边缘少,边缘比较完整和光滑 我们设想:如果真实目标边缘完整而且封闭,然后在真实目标边缘内做种子填充,那么得到的二值化图像将接近理想情况(如图3所示) 为了达到或接近图3所示的二值化结果,我们需要对图2做如下操作:(1)去伪边缘;(2)封闭真实边缘;(3)在真实目标边缘内选取种子点做种子填充图2 边缘图像图3 人工二值化结果为此,本文提出了一种结合Canny 算子的图像二值化方法,该方法充分利用了Canny 算子检测边缘的优良特性 Canny 算子的边缘检测最优性与以下标准有关[8]:(1)检测标准 不丢失重要的边缘,不应有虚假的边缘(2)定位标准 实际边缘与检测到的边缘位置之间的偏差最小(3)单响应标准 将多个响应降低为单个响应 考虑到Canny 算子的如上优点,本文从Canny 算子的边缘图像中提取有用信息,如目标像素的灰度和背景像素的灰度,从而自动确定整幅图像的高、低阈值;真实目标内的种子点 提取的种子点应尽量在真实目标边缘内部,然后种子点在高阈值图像上做种子填充,填充时将边缘线和边缘线附近的较高灰度像素作为种子填充的屏障,达到封闭真实边缘的目的 另外,考虑到种子点可能在背景中生长,还需判断当前种子点填充的区域是否为目标区域 2 2 算法实现基于以上讨论,得到了如下的具体算法:Step1 对如图4a 所示原图I 做Canny 边缘检测,得到如图4b 所示边缘图像eI ;Step2 去除eI 中的孤立小边缘,然后对eI 中的每一点进行判断 如果为边缘点,则将它的四邻域中的非边缘点存入临时矩阵T 中 如果T 中点的数目大于1,则将其对应于I 中灰度值最低的点存放在矩阵lE 中,其余点存放在矩阵hE 中Step3 求得低阈值LT =1m(i,j ) lEI (i,j ),m 为lE 中点13036期陈 强等:结合Canny 算子的图像二值化的个数;高阈值H T =1n(i,j ) h EI (i ,j ),n 为hE 中点的个数Step4 将lE 中的点作为种子点存入矩阵S 中 Step5 用H T 二值化I 得到如图4c 所示高阈值二值化图像hbI ,然后将hbI (i ,j ){(i ,j ) hE or (i ,j ) eI 中的边缘点}置为背景点,得到如图4d 所示种子生长屏障图像hbI 2Step6 用S 中的点作为种子点在hbI 2中进行如图4e 所示的种子填充,判断当前种子点填充区域的边缘点中种子点所占的比重,如果此比重大于某一阈值(如0 1),则将此填充区域内的点置为目标点,那些没有种子点的区域和种子点在区域边缘点中占的比重较小的区域都置为背景点,从而得到如图4f 所示初步的二值化图像sbIStep7 用L T 二值化I 得到如图4g 所示的图像lbI ,然后将sbI (i ,j ){(i,j ) lbI 中的目标点}置为目标点,得到如图4h 所示的高、低阈值的联合图像hlIStep8 去除hlI 中的连通个数小于某一阈值的目标点,得到如图4i 所示最终的二值化图像rI图4j 所示为图4e 的局部放大,其中符号 +为种子点 由本文算法的结果图4i 所示与图3比较可知:真实目标基本上都检测到了,只是图4i 所示的目标不如图3的饱满Step2中,去除孤立小边缘是为了去除伪边缘;Step5中,将高阈值图像中的边缘点和高灰度像素点置为背景,是为了达到封闭真实边缘的目的;Step6中,判断当前种子点填充区域的边缘点中种子点所占的比重,是为了进一步判断当前区域是否为目标区域 因为目标区域中种子点在区域边缘点中占的比重较大,而背景区域中种子点在区域边缘点中占的比重较小,据此可以去除伪影图4 本文方法实现过程本文方法与经典的图像二值化方法相比具有如下区别:(1)充分利用了Canny 算子边缘光滑特性;(2)种子点在高阈值图像的目标内生长,从而解决了目标内灰度不一致性的问题;(3)对得到的可能区域进一步判断,去除伪目标区域;(4)高、低阈值相结合,较好地解决了细节丢失和噪声增多两者间的平衡问题 如果取阈值0 5 (LT +H T ),则得到简化的二值化结果图像,对于要求不是很高的情况,它是一种合理的二值化方法 但是,本文方法也存在一些缺点:如边缘的不封闭性可能导致部分噪声的引入3 实验结果及分析下面以对比度较差的扫描票据图像为例,比较以上几种方法的性能 图5所示为加噪的扫描图像二值化结果比较图 对于这种含高斯噪声的扫描图像,Ostu 算法二值化的效果较好,但它还是会丢掉一些灰度较低的目标点,如图5b 所示,Ostu 算法基本上能得到较完整的目标图像,但却丢失了线框中的灰度较低点,这是单一阈值不可避免的问题 Bernsen 算法二值化(如图5a 所示)的效果不理想,由于窗口的宽度取得不够大,导致伪影的出现和目1304计算机辅助设计与图形学学报2005年标点的丢失,如图5c所示;而如果窗口宽度取得太大,又会失去局部阈值的意义,同时导致速度很慢,所以窗口大小的选择对于Bernsen算法来说也是个问题 将本文方法作用于图5a取得了很好的效果(如图5d所示),它不会出现图5c中的伪影现象,也较好地解决了图5b,5c中低灰度目标点丢失的现象 图6所示为印章扫描图像的二值化结果比较图,可以看出印章图像的目标灰度不均匀,且目标边缘存在伪影 单一阈值的Ostu算法不能解决细节丢失与噪声增多的矛盾,它只能寻求两者间的较好平衡,如图6b所示 Bernsen算法对于像图6a所示细节丰富的印章图像效果较Ostu算法好,它能得到更多的细节信息,但它的抗噪能力较差,得到的目标边缘比较粗糙,如图6c所示 从图6d可以看出,本文方法对于低对比度的印章图像效果较好,它具有细节信息丢失较少、抗噪能力强、边缘光滑的优点,特别是很好地解决了印章图像中经常出现的伪影现象图5 加噪图像的二值化结果比较图6 印章扫描图像的二值化结果比较4 结 论针对一些经典二值化方法(如Ostu算法和Bernsen算法)中存在的抗噪能力差,低灰度目标信息的丢失,边缘粗糙等不足,本文提出了一种切实可行的二值化方法 结合Canny算子的图像二值化 它充分利用了Canny边缘信息,使得该方法具有如下优点:(1)利用高、低阈值和边缘信息相结合的方法进行二值化,可以弥补单一阈值所不能解决的细节丢失和噪声增多两者间的平衡问题 (2)Can ny算子的边缘光滑性使得二值图像的边缘也能保持较好的光滑性 (3)整个二值化过程完全自动化,不需要人工干预 本文方法对于低对比度图像和目标灰度不均匀的图像(如印章图像)适用,特别适合低对比度图像和灰度不均匀的图像,如印章图像 将本文方法应用于银行票据的预处理取得了很好的效果,从而为后续的模板匹配、分割识别提供了良好的条件 参 考 文 献[1]Simon J C,Baret O,Gorski N A system for the recognition ofhandw ritten li teral amounts of checks[A] In:Proceedings ofthe Conference on Document Analysis Sys tem,Kaiserslautern,1994 135~155[2]Li Jianhua,M a Xiaomei,Guo Ch eng an Bi narizati on methodof fingerprint images based on orientation and dynamic threshold[J] Journal of Dalian University of Technology,2002,42(5):626~628(in Chinese)(李建华,马小妹,郭成安 基于方向图的动态阈值指纹图像二值化方法[J] 大连理工大学学报,2002,42(5):626~628)[3]Otsu N A th reshold selection method from gray level histograms[J] IEE E Transacti ons on Systems,M an,an d Cybernetics,1979,9(1):62~66[4]Bernsen J Dynam i c thresholdi ng of gray level images[A] In:Proceedings of the8th Internati onal Conference on PatternRecogniti on[C] Paris:IEEE Computer Society Press,19861251~125513056期陈 强等:结合Canny算子的图像二值化[5]Zhao Xuesong,Chen Shuzhen Image segmentation based onglobal binarization an d edge detecti on[J] Journal of Computer Aided Design&Computer Graphics,2001,13(2):118~121 (in Chinese)(赵雪松,陈淑珍 综合全局二值化与边缘检测的图像分割方法[J] 计算机辅助设计与图形学学报,2001,13(2):118 ~121)[6]W ang Qiang,M a Lizhuang Binary conversion of image w i thfeature pres erving[J] Journal of Computer Aided Design& Computer Graphics,2000,12(10):746~750(in Chinese)(王 强,马利庄 图像二值化时图像特征的保留[J] 计算机辅助设计与图形学学报,2000,12(10):746~750)[7]Canny John A computational approach to edge detection[J]IEEE T ransactions on Pattern Analysis an d M achine Intelli gence,1986,8(6):679~698[8]M ilan Sonka,Vaclav Hlavac,Roger Boyle Image Processi ng,Analysis,and M achi n e Vision[M] 2nd ed Beij ing:People s Pos ts&T elecommunications Publishing House,2003(in Chi nese)([美]M ilan Sonka,[捷克]Vaclav Hlavac,[英]Roger Boyle 艾海舟,武 勃,等译 图像处理、分析与机器视觉[M] 第2版 北京:人民邮电出版社,2003) 陈 强 男,1979年生,博士研究生,主要研究方向为图像分析与理解、模式识别与人工智能朱立新 男,1979年生,博士研究生,主要研究方向为图像处理、计算机视觉夏德深 男,1941年生,博士,教授,博士生导师,主要研究方向为图像处理、卫星遥感、模式识别1306计算机辅助设计与图形学学报2005年。

北理工贾云德《计算机视觉》第九章 明暗分析

北理工贾云德《计算机视觉》第九章 明暗分析

ρd ρd = ∫∫ Lr ,s ( X , θ i , φi ) cos θ i sin θ i dθ i dφi = Li ( X ) π π
Computer Vision
Department of Computer Science @BIT
Lambertian表面的辐射度
• 表面辐射度与光源和辐照角度有关,不同的表 面点可能具有相同的或不同的感觉亮度. • 均匀照明
Computer Vision
Department of Computer Science @BIT
镜面
• Phong镜面模型: 辐射度与 cos n (δθ ) = cos n (θ r − θ s ) 成比例
Lr ( X , θ r , φr ) = ρ s ( X )Lr ( X , θ s , φs ) cos n (θ s − θ r )
Computer Vision
Department of Computer Science @BIT
双向反射分布函数
• 到达表面的辐照度与所引起的辐射度的比例
Lr ( X,θ r , φr ) = f (θ i , φi , θ r , θ r ) Li ( X,θ i , φi ) = f (θ i , φi , θ r , θ r ) Lr , s ( X,θ i , φi ) cos θ i dω
Lr ( X ,θ r , φr ) = ρ s ( X )Lr , s ( X , θ r , φr − π )
Computer Vision
Department of Computer Science @BIT
镜面
• 理想镜面很少,实际需考虑围绕镜面反射方向 的方向瓣,称为镜面瓣(specular lobe).

北理工贾云德《计算机视觉》chapter12标定

北理工贾云德《计算机视觉》chapter12标定

第12章标定本章将讨论各种摄象机系统及深度成像系统的标立方法.在摄影测量学领域中,已经建立了大量的摄象机和测距传感器标左方法•这些方法可以用来确左摄象机或测距传感器在场景中的位置和方向以及与场景坐标之间的关系.在摄影测量学中有以下四个标定问题:(1)绝对泄位:通过标上点确立两个坐标系在绝对坐标系统中的变换关系.或确立测距传感器在绝对坐标系中的位置和方向.(2)相对左位:通过场景中的标圧点投影确肚两个摄象机之间的相对位置和方向.(3)外部左位:通过场景中的标左点投影确龙摄象机在绝对坐标系中的位置和方向.(4)内部泄位:确左摄象机内部几何参数,包括摄象机常数,主点的位置以及透镜变形的修正量・这些标泄问题主要起源于高空摄影技术,是摄影测量中的经典问题•除了以上四个标左问题外,摄影测量学还解决以下两个问题:一是通过双目立体视差确定点在场景中的实际位鼬二是对立体图像对进行校正变换,使得立体图像对的外极线与图像的行平行以便简化后续处理(见第十一章).摄象机标左过程中涉及到以下几种坐标,场景坐标、摄象机坐标.图像坐标和像素坐标等,这些坐标已经在1・7中介绍成像基础知识时引入•确定这些坐标之间的关系就是本章所要讨论的各种标立问题的目的.12- 1刚体变换物体位宜和方向的任意变化都可以认为是刚体变换,因为物体的移动只改变英位宜和方向,并不改变英形状和大小.假泄通过两个处于不同位置的摄像机均可看到&点,P点在两个摄像机坐标系中的坐标分別是和心=(兀,〉'2山2)•显然两个摄象机位豊之间的变换是刚体运动,因此,P点在第一个视场中的坐标必可以通过旋转和平移变换到第二个视场中的坐标卩2,p2=RP1 +t (12. 1) 其中矩阵R是一个3x3的正交方阵,用于旋转变换:r xx金Q(12. 2)矢St = (/x J v J7)r表示平移,或者说点t是第一个坐标系原点在第二个坐标系上的坐标, 如图12・1所示.方程12・1可以认为是计算一个点经过旋转和平移以后的新坐标,或是计算空间中同一个点在不同坐标系中的坐标・前者用于刚体力学:在物体移动到一个新的位宜以后,讣算物体上一点的新坐标:后者用于标泄问题:同一点在不同观察位置上观察将会得到不同的坐标,这种不同可以由刚体变换确定,而标立问题就是来确左这种刚体变换.例如,考虑两个具有不同位置和姿态的摄象机观察场景中同一点,由于观察角度不同,这一点在两个摄像机坐标系中的坐标是不同的.设想旋转第一个摄象机,使其方向与第二个摄象机的方向相同:再设想将第一摄象机平移到第二摄象机的位置上,则两个摄彖机坐标系完全重合.12・1・1旋转矩阵空间角可用直角坐标系中的欧拉角描述:绕入轴旋转角0,绕新的y轴旋转角肖,绕新的Z 轴旋转角0,角&是光轴的俯仰角(pitch),也叫垂直角,角0是光轴的偏航角(yaw)(水平角),角0表示光轴滚动角(roll)或扭转角(twist).无转动(三个角都等于零)指的是两个坐标系统完全对正•各角度旋转正方向为从坐标系原点沿各轴正方向观察时的逆时针旋转方向・用这些角表示方程12・2定义的旋转矩阵各元素如下:r vv = cos 肖cos 0r vv = sin 0 sin 屮 cos 0—cos 0 sin 0r x: = cos 0 sin 屮 cos 0 + sin & sin 0r yx = cos 肖sin Qr>y =sin &sin ©sin 0 + cos&cos0 (12・ 3)r>: = cos0sin 0sin 0-sin &cos0r,v = _sin 0r,v = sin &cos0r:: = cos 8 cos 肖用欧拉角的形式来确左坐标索的旋转会引起数值解不稳泄,因为欧拉角很小的变化可能对应很大的旋转变化.因此,标左算法或者求解旋转矩阵的各元素常使用其它形式的旋转角表达式,如,四元数等.旋转矩阵是一个正交矩阵:R Z R = I (12. 4) 其中I表示单位矩阵.由上述公式不难得到旋转矩阵的逆就是该矩阵的转宜.标左算法会在坐标系之间产生刚体变换;例如,从坐标系1到坐标系2,我们有p2 = RP] +t2(12. 5) 刚体变换的逆变换就是将坐标系2的坐标变为坐标怎1的坐标:P)=R7 (p2 -t2) = R/p2+tj (12. 6) 这里的-表示坐标系上的/点是另一个坐标系的原点.注意平移变换的逆变换并不是简单的等于t]必须乘以旋转变换的逆变换,因为匚表示在坐标系2上的平移,苴逆变换一立要表示到与坐标系1同一个方位的坐标系中.A图12. 2欧拉角或俯仰角、偏航角和滚动角示意图12. 1. 2旋转轴旋转也可以规立为逆时针(右手坐标系)绕由单位矢量表示的轴的旋转.这是一种观察旋转的非常直观方法,但是它在数值计算上也有和欧拉角一样的问题.旋转轴和旋转角度表达式可以转换成矩阵表达式(方程12. 1),以作为刚体变换的公式.当然,如果能直接使用旋转轴和旋转角表达式来产生满意的数值解,将是最好不过的了.在这种思路的基础上产生了旋转四元数,这也是将四元数用于旋转表示的原因之一.12. 1. 3四元数四元数是一个四元矢量§ = (%的43,%),可用来表示坐标旋转.实践证明,对于左位求解问题,四元数表示可以给出很好的数值解.为了理解四元数是如何对旋转进行表示的,我们首先想象在二维平而X-),上的一个单位圆,单位圆上的任何一个位置都只对应于一个旋转角.如图所示・图12・3单位圆上一点(x,y)只能对应一个旋转角&再考虑三维空间中的单位球:x2 +y2 +z2 = 1 (12. 7)P2 =R(qb +(%如汀 (12. 17)在单位球上的任意一点只对应绕X 轴和y 轴旋转的两个角&和0,无法表示绕z 轴旋转 的第三个角0.显然,再增加一个自由度就可以表示所有三个旋转角.四维空间单位球泄义 如下:x 2 + v 2 +z 2 +6>2 =1 (12. 8)三维空间中所有三个旋转角可以通过四维单位球上的点来表示•由单位四元数表示的旋转公 式如下:q ( +鼻 +亦 +亦=1 (12. 9)每一个单位四元数和其反极点(antipole )-q = (-q (),-如,-的,-彳3)都表示三维空间中的旋 转・ 用单位四元数表示刚体变换的旋转矩阵:+ q; -q ; - q] 2((申2 一。

计算机视觉贾云德toreader

计算机视觉贾云德toreader

致读者
当我从科学出版社拿到《机器视觉》这本书时,翻看了几页就发现了若干错误。

继续看下去,令我十分紧张和不安,我发现了大量的错误:文字表述错误、有些内容晦涩、公式有错误、图有错误。

对此,我深感内疚和难过。

我试图想通过《机器视觉》教学网页来弥补,但由于某些原因,网页一直拖沓到现在。

前几天,科学出版社通知我,《机器视觉》已经第二次印刷了,这一消息更令我不安,加速建设网页势在必行。

网页包含有勘误表,为研究生上课使用的部分课件,部分思考题参考答案,还有部分程序和测试图像。

我们将不断丰富网页内容,不断增加视觉源程序。

我收到了大量的邮件,不少读者认为该书的体系结构比较完整。

实际上,这一体系并不是我独创的,只要看几所国外知名大学的计算机视觉教学大纲和几本国外知名的计算机视觉教材,就很容易得到本书所体现的结构。

尽管本书的体系结构较完整,但不少章节所表述的内容,在深度与广度方面还存在着较大的不平衡,比如,图像预处理的Gabor滤波、广义Hough变换、特征脸、彩色图像检索、摄像机自标定、主动视觉、三维重建等都是计算机视觉的基本内容,但本书论述的较少。

因此,我们将更新某些章节,逐步增加这些内容,并在网页上发布电子版本,供读者批评指正。

另外,关于小波特征、遗传算法、神经元网络等内容,由于有专门的著作和教材,因此,本书基本上不做论述。

本书各章节思考题和计算机练习题主要取自于国外教科书,显然有些习题不够严谨,有些不够先进,我们将在电子版中进行修订。

最后,感谢读者对本书的关注和支持。

贾云得
2002年7月于北京理工大学。

基于时空单词的两人交互行为识别方法

基于时空单词的两人交互行为识别方法
−t 2 τ 2 −t 2 τ 2 ev od
图 3 时空兴趣点检测结果 如图 3 所示,时空兴趣点可以正确的定位到视频序列中具有明显运动的区域。值得注意的是,两人交互 行为视频中的时空兴趣点是由两个不同的人产生,建模单人原子行为还需要按照不同的行为执行者对时空兴 趣点进行分类。剪影(silhouette)是基于视觉的人体行为分析中普遍使用的静态特征,从图像序列中鲁棒的 提取人体剪影的技术已经比较成熟,本文我们基于两人剪影的连通性判断机制以及时空兴趣点的历史信息, 提出一种可以动态划分时空兴趣点的方法,如算法 1 所示。 算法 1:时空兴趣点分类算法 定义: p 为第 k 帧(i, j)位置的时空兴趣点, P 第 k 帧上的时空兴趣点集, S 第 k 帧的剪影图像;
国家自然科学基金); the National High Technology Research and Development Program of China under Grant No.2009AA01Z323 (国家高技术研究发展计划 (863)). 作者简介: 韩磊(1982-),男,河北乐亭人,博士研究生,CCF 学生会员,主要研究领域为基于视觉的人机交互,人体行为分析等; 李君峰(1985-),男,山东德州人,硕士研究生,主要研究领域为基于视觉的人体行为识别;贾云得(1962-),男,山西阳高人,博士,教授,博 士生导师,CCF 理事,主要研究领域为计算机视觉,人工智能和人机交互等. + 通讯作者 : Phn +86-10-6894-0955, E-mail: jiayunde@, /.
R = ( I * g * hev ) 2 + ( I * g * hod ) 2
ev od
(1)
其中 g ( x, y;σ ) 是仅用于二维图像平滑的高斯核, h 和 h 是一对正交的一维 Gabor 滤波器,仅用于时间维, 定义为 h = (t;τ ,ω ) = − cos(2πtω )e , h (t;τ ,ω ) = − sin(2πtω )e 。由于所有实验中均设定 ω = 4 τ , 公式(1)中的参数减少到两个,即 σ 和 τ ,他们分别控制检测器在空间和时间上的尺度。出于计算效率的 考虑,本文并没有在多个时空尺度上检测时空兴趣点,而仅在一个空间和时间尺度上进行检测(实验中设定 σ = 1 和 τ = 2.5 ) 。图 3 分别显示了“握手”和“拳击”行为中部分图像中时空兴趣点的检测结果。

基于自适应高斯混合模型的图像稳定方法

基于自适应高斯混合模型的图像稳定方法

基于自适应高斯混合模型的图像稳定方法
张敏;赵猛;贾云得;王俊
【期刊名称】《北京理工大学学报》
【年(卷),期】2004(24)10
【摘要】提出了一种基于自适应高斯混合模型(Gaussianmixturemodel)的运动滤波器的图像稳定方法.首先采用多分辨力金字塔技术,通过特征跟踪进行运动估计;然后分析前n帧图像的统计特征,求取GMM参数;最后利用GMM运动滤波器对运动参数进行滤波,输出稳定的图像序列.实验结果表明,该方法对于图像的不规则运动的参数补偿是有效的,并且可以实现实时处理.
【总页数】4页(P897-900)
【关键词】图像稳定;运动估计;运动补偿;高斯混合模型
【作者】张敏;赵猛;贾云得;王俊
【作者单位】北京理工大学信息科学技术学院计算机科学工程系
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种基于高斯混合模型的红外图像自适应均衡和对比度增强算法 [J], 陈小波;鲁新平;张升斌
2.一种基于高斯混合模型的红外图像自适应均衡和对比度增强算法 [J], 陈小波;鲁新平;张升斌
3.基于自适应高斯混合模型的JPEG压缩图像去块效应算法 [J], 范梦;熊淑华;陈洪刚;吴小强;何小海
4.基于自适应空间邻域信息高斯混合模型的图像分割 [J], 朱峰;罗立民;宋余庆;陈健美;左欣
因版权原因,仅展示原文概要,查看原文内容请购买。

北理工贾云德《计算机视觉》chapter01引论

北理工贾云德《计算机视觉》chapter01引论

第一章引论人类在征服自然、改造自然和推动社会进步的过程中,面临着自身能力、能量的局限性,因而发明和创造了许多机器来辅助或代替人类完成任务.智能机器,包括智能机器人,是这种机器最理想的形式,也是人类科学研究中所面临的最大挑战之一.智能机器是指这样一种系统,它能模拟人类的功能,能感知外部世界并有效地解决人所能解决问题.人类感知外部世界主要是通过视觉、触觉、听觉和嗅觉等感觉器官,其中约80%的信息是由视觉获取的.因此,对于智能机器来说,赋予机器以人类视觉功能对发展智能机器是及其重要的,也由此形成了一门新的学科—机器视觉(也称计算机视觉或图像分析与理解等).机器视觉的发展不仅将大大推动智能系统的发展,也将拓宽计算机与各种智能机器的研究范围和应用领域.机器视觉是研究用计算机来模拟生物外显或宏观视觉功能的科学和技术.机器视觉系统的首要目标是用图像创建或恢复现实世界模型,然后认知现实世界.机器视觉系统获取的场景图像一般是灰度图像,即三维场景在二维平面上的投影.因此,场景三维信息只能通过灰度图像或灰度图像序列来恢复处理,这种恢复需要进行多点对一点的映射逆变换.在信息恢复过程中,还需要有关场景知识和投影几何知识.机器视觉是一个相当新且发展十分迅速的研究领域,并成为计算机科学的重要研究领域之一.机器视觉是在20世纪50年代从统计模式识别开始的[1],当时的工作主要集中在二维图像分析和识别上,如光学字符识别,工件表面、显微图片和航空图片的分析和解释等.60年代,Roberts(1965)通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述[Roberts 1965].Roberts 的研究工作开创了以理解三维场景为目的的三维机器视觉的研究.Roberts对积木世界的创造性研究给人们以极大的启发,许多人相信,一旦由白色积木玩具组成的三维世界可以被理解,则可以推广到理解更复杂的三维场景.于是,人们对积木世界进行了深入的研究,研究的范围从边缘、角点等特征提取,到线条、平面、曲面等几何要素分析,一直到图像明暗、纹理、运动以及成像几何等,并建立了各种数据结构和推理规则.到了70年代,已经出现了一些视觉应用系统[Guzman 1969, Mackworth 1973,].70年代中期,麻省理工学院(MIT)人工智能(AI)实验室正式开设“机器视觉”( Machine Vision)课程,由国际著名学者B.K.P.Horn教授讲授.同时,MIT AI 实验室吸引了国际上许多知名学者参与机器视觉的理论、算法、系统设计的研究,David Marr教授就是其中的一位.他于1973年应邀在MIT AI 实验室领导一个以博士生为主体的研究小组,1977年提出了不同于"积木世界"分析方法的计算视觉理论(computational vision),该理论在80年代成为机器视觉研究领域中的一个十分重要的理论框架.可以说,对机器视觉的全球性研究热潮是从20世纪80年代开始的,到了80年代中期,机器视觉获得了蓬勃发展,新概念、新方法、新理论不断涌现,比如,基于感知特征群的物体识别理论框架,主动视觉理论框架,视觉集成理论框架等.到目前为止,机器视觉仍然是一个非常活跃的研究领域.许多会议论文集都反应了该领域的最新进展,比如,International Conference on Computer Vision and Pattern Recognition(CVPR); International Conference on Computer Vision(ICCV); International Conference on Pattern Recognition(ICPR); International Conference on Robotics and Automation(ICRA); Workshop on Computer Vision, and numerous conferences of SPIE.还有许多学术期刊也包含了这一领域的最新研究成果, 如,IEEE Transaction on Pattern Analysis and Machine Intelligence(PAMI); Computer Vision, Graphics, and Image Processing(CVGIP); IEEE Transaction on Image Processing; IEEETransaction on Systems, Man, and Cybernetics(SMC); Machine Vision and Applications; International Journal on Computer Vision(IJCV); Image and Vision Computing; and Pattern Recognition.每年还出版许多研究专集、学术著作、技术报告,举行专题讨论会等.所有这些都是研究机器视觉及其应用的很好信息来源.1.2 Marr的视觉计算理论Marr的视觉计算理论[Marr1982]立足于计算机科学,系统地概括了心理生理学、神经生理学等方面业已取得的所有重要成果,是视觉研究中迄今为止最为完善的视觉理论.Marr建立的视觉计算理论,使计算机视觉研究有了一个比较明确的体系,并大大推动了计算机视觉研究的发展.人们普遍认为,计算机视觉这门学科的形成与Marr的视觉理论有着密切的关系.事实上,尽管20世纪70年代初期就有人使用计算机视觉这个名词[Binford,1971],但正是Marr 70年代末建立的视觉理论促使计算机视觉这一名词的流行.下面简要地介绍Marr的视觉理论的基本思想及其理论框架.1.2.1 三个层次Marr认为, 视觉是一个信息处理系统,对此系统研究应分为三个层次:计算理论层次,表示(representation)与算法层次,硬件实现层次,如表1-1所示.表1-1按照Marr的理论,计算视觉理论要回答视觉系统的计算目的和策略是什么,或视觉系统的输入和输出是什么,如何由系统的输入求出系统的输出.在这个层次上,信息系统的特征是将一种信息(输入)映射为另一种信息(输出).比如,系统输入是二维灰度图像,输出则是三维物体的形状、位置和姿态,视觉系统的任务就是如何建立输入输出之间的关系和约束,如何由二维灰度图像恢复物体的三维信息.表示与算法层次是要进一步回答如何表示输入和输出信息,如何实现计算理论所对应的功能的算法,以及如何由一种表示变换成另一种表示,比如创建数据结构和符号.一般来说,不同的输入、输出和计算理论,对应不同的表示,而同一种输入、输出或计算理论可能对应若干种表示.在解决了理论问题和表示问题后,最后一个层次是解决用硬件实现上述表示和算法的问题,比如计算机体系结构及具体的计算装置及其细节.从信息处理的观点来看,至关重要的乃是最高层次,即计算理论层次.这是因为构成知觉的计算本质,取决于解决计算问题本身,而不取决于用来解决计算问题的特殊硬件.换句话说,通过正确理解待解决问题的本质,将有助于理解并创造算法.如果考虑解决问题的机制和物理实现,则对理解算法往往无济于事.上述三个层次之间存在着逻辑的因果关系,但它们之间的联系不是十分紧密,因此,某些现象只能在其中一个或两个层次上进行解释.比如神经解剖学原则上与第三层次即物理实现联系在一起.突触机制、动作电位、抑制性相互作用都在第三个层次上.心理物理学与第二层次(即表示与算法)有着更直接的联系.更一般地说,不同的现象必须在不同的层次上进行解释,这会有助于人们把握正确的研究方向.例如,人们常说,人脑完全不同于计算机,因为前者是并行加工的,后者是串行的.对于这个问题,应该这样回答:并行加工和串行加工是在算法这个层次上的区别,而不是根本性的区别, 因为任何一个并行的计算程序都可以写成串行的程序.因此,这种并行与串行的区别并不支持这种观点,即人脑的运行与计算机的运算是不同的,因而人脑所完成的任务是不可能通过编制程序用计算机来完成.1.2.2 视觉表示框架视觉过程划分为三个阶段, 如表1-2所示.第一阶段(也称为早期阶段)是将输入的原始图像进行处理,抽取图像中诸如角点、边缘、纹理、线条、边界等基本特征,这些特征的集合称为基元图(primitive sketch);第二阶段(中期阶段)是指在以观测者为中心的坐标系中,由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等,这些信息的包含了深度信息,但不是真正的物体三维表示,因此,称为二维半图(2.5 dimensional sketch);在以物体为中心的坐标系中,由输入图像、基元图、二维半图来恢复、表示和识别三维物体的过程称为视觉的第三阶段(后期阶段).Marr理论是计算机视觉研究领域的划时代成就,但该理论不是十分完善的,许多方面还有争议.比如,该理论所建立的视觉处理框架基本上是自下而上,没有反馈.还有,该理论没有足够地重视知识的应用.尽管如此,Marr理论给了我们研究计算机视觉许多珍贵的哲学思想和研究方法,同时也给计算机视觉研究领域创造了许多研究起点.1.3 机器视觉的应用机器视觉技术正广泛地应用于各个方面,从医学图象到遥感图像,从工业检测到文件处理,从毫微米技术到多媒体数据库,不一而足.可以说,需要人类视觉的场合几乎都需要机器视觉.应该指出的是,许多人类视觉无法感知的场合,如精确定量感知、危险场景感知、不可见物体感知等,机器视觉更突显其优越性.下面是一些机器视觉的典型应用.(1)零件识别与定位由于工业环境的结构、照明等因素可以得到严格的控制,因此,机器视觉在工业生产和装配中得到了成功的应用.图1.1 是一个具有简单视觉的工业机器人系统示意图,其视觉系统由一个摄象机和相关的视觉信息处理系统组成.摄象机位于零件传输带上方,对于不同的零件,可以选择不同颜色的传输带,比如,明亮的物体,选择黑色传输带,暗色的零件,选择白色的背景,这样有利于视觉系统将零件从传输带上分离出来,并进行识别和定位,识别的目的是为机器人提供是否操作或进行何种操作的信息,定位的目的是导引机器人手爪实时准确地夹取零件.图1.1 用于生产线上具有简单视觉系统的工业机器人系统示意图(2)产品检验机器视觉在工业领域中另一个成功的应用是产品检验.目前已经用于产品外形检验、表面缺陷检验,比如,滑块及滑槽的外形检验以及装配后的位置检验,以决定它们能否装配在一起,并且准确无误地完成装配任务;发动机内壁麻点、刻痕等缺陷检查,以决定产品的质量.通过X射线照相或超声探测获取物体内部的图像,可以实现内部缺陷检验,如钢梁内部裂纹和气孔等缺陷检验.(3) 移动机器人导航我们来看一下图1.2所示的两组图像,每一组图像称为一个立体对(stereo pair),是由移动机器人上的两个摄象机同步获取的,表示某一时刻关于场景的不同视点的两幅图像.机器人利用立体对可以恢复周围环境的三维信息.移动机器人可以利用场景的三维信息识别目标、识别道路、判断障碍物等,实现道路规划、自主导航,与周围环境自主交互作用等.将立体图像对和运动信息组合起来,可以构成满足特定任务分辨率要求的场景深度图.这种技术对无人汽车、无人飞机、无人战车等自主系统的自动导航十分有用.比如,著名的美国Sojourner和Rocky7等系列火星探测移动机器人都使用了立体视觉导航系统.图1.2 由移动机器人立体视觉系统获取的立体图像对,可用来重建场景三维信息(4)遥感图像分析目前的遥感图像包括三种:航空摄影图像、气象卫星图像、资源卫星图像.这些图像的共同特点是在高空对地表或地层进行远距离成像,但三种图像的成像机理完全不同.航空图像可以用普通的视频摄象机来获取,分析方法也同普通的图像分析一样.卫星图像的获取和应用随着成像机理不同而变化很大,气象卫星使用红外成像传感系统可以获取不同云层的图像,即云图,由此分析某一地区的气象状况;海洋卫星使用合成孔径雷达获取海洋、浅滩图像,由此重构海洋波浪三维表面图;资源卫星装备有多光谱探测器(multiple spectral sensor, MSS),可以获取地表相应点的多个光谱段的反射特性,如红外、可见光、紫外等,多光谱图像被广泛地用于找矿、森林、农作物调查、自然灾害测报、资源和生态环境检测等.(5)医学图像分析目前医学图像已经广泛用于医学诊断,成像方法包括传统的X射线成像、计算机层析(computed tomography, CT)成像、核磁共振成像(magnetic resonance imaging, MRI)、超声成像等.机器视觉在医学图像诊断方面有两方面的应用,一是对图像进行增强、标记、染色等处理来帮助医生诊断疾病,并协助医生对感兴趣的区域进行定量测量和比较;二是利用专家知识系统对图像(或是一段时期内的一系列图像)进行自动分析和解释,给出诊断结果.(6)安全鉴别、监视与跟踪用机器视觉系统可以实现停车场监视、车辆识别、车牌号识别、探测并跟踪“可疑”目标;根据面孔、眼底、指纹等特征识别特定人。

无人驾驶车辆_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

无人驾驶车辆_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

无人驾驶车辆_北京理工大学中国大学mooc课后章节答案期末考试题库2023年1.2007年 DARPA举办的城市挑战赛,冠军是斯坦福大学的无人车。

参考答案:错误2.相机与激光雷达数据融合主要是指空间数据融合。

()参考答案:错误3.关于激光雷达slam,以下描述正确的有()参考答案:Gmapping 采用粒子滤波的方法,在二维激光雷达slam中使用广泛。

_Karto SLAM采用图优化的方法计算更新激光雷达的位姿。

_Cartographer以子地图为单位构建全局地图,以消除构图过程中产生的累积误差。

_Hector SLAM采用基于扫描匹配的方法,在传感器精度高的情况下,定位建图效果好。

4.视觉里程计的目的是根据拍摄的图像估计相机的运动,其关键步骤包括()参考答案:特征提取_局部优化_运动估计_特征匹配5.以下哪些曲线可以用于状态空间采样()参考答案:Dubins曲线_Reeds-shepp曲线_B样条曲线_高次多项式曲线6.单层感知机无法解决异或问题,这是因为异或问题是一个非线性问题,而单层感知机属于一种线性分类器。

参考答案:正确7.LPA*算法是一种实时、增量式的规划算法。

参考答案:错误8.通过卫星播发导航电文的方式可以将电离层时间误差、对流层时间误差、多路径延迟误差和卫星位置j等信息提供给用户。

参考答案:正确9.拓扑地图模型选用节点来表示道路上的特定位置,用节点与节点间的关系来表示道路间联系。

这种地图表示方法结构简单、存储方便、全局连贯性好,适合于大规模环境下的路径规划。

参考答案:正确10.相机成像时,像素点是离散的,像素值是连续的。

参考答案:错误11.假如激光雷达坐标系到车体坐标系的旋转矩阵为[0.83, -0.26, 0.49; 0.36, 0.93,-0.11; -0.42, 0.27, 0.87;],平移向量为[-0.1, -0.6, 0.6],激光雷达坐标系中坐标为[1.6, -1.5, 1.5]的点,在车体坐标系中的坐标是()参考答案:[2.35, -1.58, 0.83]12.Dijkstra算法只能求出起点到终点的最短路径,不能得到起点到其它各节点的最短路径。

一种基于模糊遗传算法的图像分块恢复方法

一种基于模糊遗传算法的图像分块恢复方法

一种基于模糊遗传算法的图像分块恢复方法邓莉;李欧迅【摘要】针对遗传算法进行图像恢复时运算复杂度高的问题,提出一种基于模糊遗传算法的图像分块恢复方法.将大尺寸的灰度退化图像均匀划分为若干子图块,对各子图块依次采用遗传算法进行恢复,并将其直方图统计数据输入模糊逻辑控制器自适应地调整适应度函数的参数、适应度拉伸时的退火初始温度、交叉概率和变异概率,最后将恢复后的子图块重组为整幅图像并对因分块所造成的边界噪声进行相应处理.仿真结果表明,该方法可有效降低遗传算法进行图像恢复的复杂度,恢复图像的质量也较维纳滤波法和传统遗传算法有明显提高.【期刊名称】《桂林航天工业学院学报》【年(卷),期】2009(014)004【总页数】3页(P419-421)【关键词】模糊遗传算法;图像分块恢复;直方图;模糊逻辑控制器【作者】邓莉;李欧迅【作者单位】桂林航天工业高等专科学校,电子工程系,广西,桂林,541004;桂林航天工业高等专科学校,电子工程系,广西,桂林,541004【正文语种】中文【中图分类】TP391遗传算法是模拟生物进化过程形成的一种自适应全局优化概率搜索算法,它在搜索过程中仅需知道目标函数的信息而无需满足其连续可微等要求,因此适用于处理传统搜索算法难以解决的非线性问题[1]。

特别是在进行图像恢复时,当退化图像中含有噪声或退化原因未知时,图像恢复常因成为一种病态[2,3]而使传统的线性恢复算法面临较多的约束甚至最终无法求解。

但是由于图像恢复可以看作一种优化问题,复杂的先验约束也可通过更改目标函数方便地结合到进化过程中,因此可采用遗传算法进行图像恢复[3]。

由于图像恢复常被作为全局问题来处理,容易增大运算复杂度,加之遗传算法因其自身的随机搜索性而缺乏良好的局部搜索能力,从而导致恢复质量不够理想[1,4]。

鉴于此,文章提出一种基于模糊遗传算法的图像分块恢复方法。

1.2 模糊逻辑控制器设计直方图是数字图像处理的基础,因其固有的数据统计特性以及运算简捷等优点被广泛应用于图像处理的各个领域,文中采用直方图的统计信息来定义模糊逻辑控制器的输入变量。

机器视觉教材-贾云得版chapter04分解

机器视觉教材-贾云得版chapter04分解

第四章 区域分析(qq584883658)图像中的区域是指相互连结的具有相似特性的一组像素.由于区域可能对应场景中的物体,因此,区域的检测对于图像解释十分重要.一幅图像可能包含若干个物体,而每一个物体又可能包含对应于物体不同部位的若干个区域.为了精确解释一幅图像,首先要把一幅图像划分成对应于不同物体或物体不同部位的区域.4.1 区域和边缘图像区域划分有两种方法:一种是基于区域的方法,另一种是使用边缘检测的轮廓预估方法.在基于区域的方法中,把所有对应于一个物体的像素组合在一起,并进行标记,以表示它们属于一个区域,这一处理过程称为分割.在某一评判标准下,把像素分配给某一区域,就可以把这些像素同图像其余部分分开.图像分割中的两个最基本的原则是数值相似性和空间接近性.如果两个像素具有相似的强度特性,或它们之间十分靠近,则可以把它们分配到同一区域,例如,两个像素之间的数值相似性度量可以是它们的灰度值之差,也可以是区域灰度值分布;它们的空间接近性度量可以是欧几里德距离,也可以是区域致密度. 相似性和接近性原则来源于如下假设:同一物体上的点投影到图像上得到的像素点在空间上十分靠近,且具有相似的灰度值.很显然,这一假设并不是在任何情况下都成立.然而可以使用这一假设来组合图像中的像素,然后利用相关域知识来匹配物体模型和区域.在简单的情况下,可以通过阈值法和连通成份标记法来进行图像分割,这一点在第三章讨论过了.对于复杂的图像,可以使用更高级的方法实现图像分割.分割也可以通过求取区域边界上的像素来进行.这些像素点(也称为边缘)可以通过搜寻邻近像素的方法来得到.由于边缘像素是在边界上,在边界两边的区域具有不同的灰度值,这样,区域的边界可以通过测量邻近像素差值来求取.尽管边缘检测可能使用诱导特性(如纹理和运动)来检测边缘.但大多数边缘检测器仅使用强度特性作为边缘检测的基础. 在理想的图像中,一个区域是由一条封闭轮廓线包围着.原则上,区域分割和边缘检测应该产生相同的结果,即使用边界跟踪算法可以得到区域的边缘(或封闭的轮廓线);反过来,使用区域填充算法也可以得到边缘所包围的区域.但在实际的图像中,很少能够从区域中得到正确的边缘,反之亦然.由于噪声和其它因素的影响,不论是区域分割还是边缘检测,都无法提供完整的信息.本章将讨论区域的基本概念,主要集中在两个问题上:图像分割和区域表示.4.2 分割已知一幅图像像素集I 和一个一致性谓词)(⋅P ,求图像I 表示成n 个区域i R 集合的一种划分:I Rn i i == 1 (4.1)一致性谓词和图像划分具有如下特性,即任何区域满足如下谓词:True )(=i R P (4.2)任何两个相邻区域不能合并成单一区域,必满足谓词:False )(=j i R R P (4.3)一致性谓词)(⋅P 定义了在区域i R 上的所有点与区域模型的相似程度.把一幅灰度图像转换成二值图像是图像分割的最简单形式.用于求取二值图像的阈值算法可以推广到求取多值图像,其中的阈值算法已经在第三章中讨论过了.为了在各种变化的场景中都能得到鲁棒的图像分割,阈值分割算法应能根据图像强度取样来自动选取合适的阈值.阈值分割法不要过分依赖于物体的灰度知识,且使用有关灰度值的相对特性来选取合适的阈值.这一简单的思想在许多计算机视觉算法中十分有用.4.2.1 自动阈值化法为了使分割更加鲁棒,系统应能自动选择阈值.基于场景中的物体、环境和应用域等知识的图像分割算法比基于固定阈值算法更具有普遍性.这些知识包括:对应于物体的图像灰度特性,物体的尺寸,物体在图像中所占的比例,图像中不同类型物体的数量等.图像灰度直方图就是一种灰度特性,它是指图像所有灰度值出现的相对频率.使用上述知识并在无人介入的情况下自动选取阈值的方法称为自动阈值化方法.自动阈值化算法通常使用灰度直方图来分析图像中灰度值的分布,并使用特定应用域知识来选取最合适的阈值.由于所用的知识具有普遍性,因此大大增加了算法的应用范围.假设一幅图像中包含有n 个物体n O O O ,,,21⋅⋅⋅,包括背景,并假设不同的区域n πππ,,,21⋅⋅⋅的灰度值具有概率分布函数)(,),(),(21z p z p z p n ⋅⋅⋅.在许多应用中,物体在图像中出现的概率n ,P ,,P P ⋅⋅⋅21也许是已知的.使用这些知识来严格地计算阈值是完全可能的.由于场景中的照明控制着图像中强度值的概率分布函数)(z p i , 因此预先计算阈值是不可能的.我们将要看到,大多数自动阈值的选取算法使用了物体尺寸和出现概率,并通过计算灰度直方图估算强度分布.下面将讨论几种常用的自动阈值化方法.为了简化表示,我们将遵循物体在图像中的表示惯例,即物体相对于光亮背景是黑的.也就是说,低于某一阈值的灰度值属于物体,而高于这一阈值的灰度值属于背景.下面将要讨论的算法稍作改动就可以应用到其它场合,如光亮物体相对于黑暗背景,灰暗物体相对于光亮和黑暗背景,光亮或黑暗物体相对于灰暗背景.一些算法还可以推广到由任意像素值集合组成的物体.(1) 模态方法如果图像中的物体具有同一灰度值,背景具有另一个灰度值,图像被零均值高斯噪声污染,那么就可以假定灰度分布曲线是由两个正态分布函数),(),(222211σμσμ和叠加而成.图像直方图将会出现两个分离的峰值,如图4.1所示.在理想恒定灰度值情况下,021==σσ,其直方图为两条线分别对应两个峰值,这时的阈值可以设置在两个最大值之间的任何位置.在实际应用中,两个最大值并不是分得很开,此时需要检测直方图曲线的波谷和波峰,并把阈值设置成波谷对应的像素值.可以证明,当物体的尺寸和背景相等时,这样选取阈值可使误分类概率达到极小值.在大多数情况下,由于直方图在波谷附近的像素很稀疏,因此,阈值的选取对图像分割影响不大.这一方法可推广到具有不同灰度均值的多物体图像中.假设有n 个物体,其强度值的正态分布参数为),(,),,(),,(2222211n n σμσμσμ⋅⋅⋅,背景也服从正态分布),(200σμ.如果这些均值明显的不同,方差值很小,且没有小尺寸物体,那么图像直方图将包含n+1个波峰,并可确定波谷的位置n T T T ,...,,21,落入每一个间隔),(1+i i T T 中的所有像素被分配给对应的物体,如图4.2所示.图4.1(a) 理想情况下,背景和物体的灰度值可以分的很开.(b)大多数情况下,物体和背景的强度值相互重叠.图4.2 具有不同灰度值的多物体图像直方图(2) 迭代式阈值选择迭代式阈值选择方法如下:首先选择一个近似阈值作为估计值的初始值,然后连续不断地改进这一估计值.比如,使用初始阈值生成子图像,并根据子图像的特性来选取新的阈值,再用新阈值分割图像,这样做的效果将好于用初始阈值分割的图像.阈值的改进策略是这一方法的关键.算法4.1给出了这一方法的步骤.算法4.1 迭代式阈值选择算法选择一个初始阈值的估算值T ,比如,图像强度均值就是一个较好的初始值. 利用阈值T 把图像分割成两组,1R 和2R .计算区域1R 和2R 的均值21,μμ.选择新的阈值T)(2121μμ+=T 重复2-4步,直到1μ和2μ的均值不再变化.(3) 自适应阈值化方法如果场景中的照明不均匀,那么上述的自动阈值化方法就不能使用.显然,在这种情况下,一个阈值无法满足整幅图像的分割要求。

北理工贾云德《计算机视觉》chapter07轮廓表示

北理工贾云德《计算机视觉》chapter07轮廓表示

第七章 轮廓表示把边缘连接起来就成为轮廓(contour).轮廓可以是断开的,也可以是封闭的.封闭轮廓对应于区域的边界,而区域内的像素可以通过填充算法来填满.断开的轮廓可能是区域边界的一部分,也可能是图像线条特征,如手写体笔画、图画中的线条等.区域之间的对比度太弱或边缘检测阈值设置太高都有可能产生间断的轮廓.轮廓可以用边缘序列表或曲线来表示.曲线通常称为轮廓的数学模型.曲线表示包括线段、二次曲线、三次样条曲线等.下面是几种轮廓表示的评价标准:高效:轮廓应该是一种简单和紧凑的表示.精确:轮廓应能精确地逼近图像特征.有效:轮廓应适合于后处理阶段的计算.轮廓表示的精确性由以下三个方面因素决定:① 用于轮廓建模的曲线形式;② 曲线拟合算法的性能;③ 边缘位置估计的精确度.轮廓的最简单表示形式是边缘有序表.这种表示的精确度就是边缘估计的精确度,但其表示的紧凑性是最差的,因此不是一种有效的后续图像分析表示方法.用适当的曲线模型来拟合边缘会提高精确度,这是因为曲线模型拟合边缘时往往具有均值化效应,因而可以减少边缘位置误差.曲线模型也会提高轮廓表示的经济性,为后处理提供了一种更适合、更紧凑的表示,例如,一条直线上的边缘集用一直线来拟合是表示这些边缘的最简单和最有效的方法,这一表示也简化了后续处理(如确定线的长度和方向);另外,由于估计直线与真实直线的均值方差小于真实直线与任何其它边缘之间的均值方差,因此可以说这种表示也增加了精确度.轮廓曲线拟合通常采用内插曲线或逼近曲线来实现.已知一组称为控制点的坐标点,内插是指一条曲线拟合这组控制点,使得曲线通过所有的控制点;逼近是指一条曲线拟合这组这组控制点,使得这条曲线非常接近这些控制点而无需一定通过这些点.在下面几节中,假定由边缘检测器得到的边缘十分准确,并使用内插值方法进行边缘曲线拟合. 定义7.1 边缘表是边缘点或边缘段的有序集合.定义7.2 轮廓是边缘表或用于表示边缘表的曲线.定义7.3 边界是包围一个区域的封闭轮廓.在无特别说明的情况下,边缘通常是指边缘点.对大多数曲线拟合算法来说,只需要边缘的位置信息。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

变配电无人值守视频监控系统中一般采用彩色摄像机,为了处理的方便和实时性要求,首先将彩色图像变成灰度图像,然后在进行处理与分析。

本文采用平均法变换[4],效果如图1 (a)所示。

对应的灰度直方图如图1(b)所示。

(a)变换后的灰度图像 (b) 灰度直方图
图 1 灰度图像变换 在灰度图像的基础上,对其进行二值化处理。

本文采用了迭代二值化方法。

迭代法既能较好的分割出目标子图像,又能自动实现。

实现算法如下:
1)求出图像中的最小和最大灰度值l Z 和k Z ,令阈值初值:
20k l Z Z T += (1)
2)根据阈值k T (初始值为0T )将图像分割成目标和背景两部分,求出两部分的平均灰度值0Z 和B Z :
∑∑<<⨯=k k T j i z T j i z o j i N j i N j i z Z ),(),()
,()
,(),( (2) ∑∑>>⨯=k
k T j i z T j i z B j i N j i N j i z Z ),(),(),(),(),( (3)
其中()j i z ,是图像上),(j i 点的灰度值,),(j i N 是),(j i 点的权重系数,一般),(j i N =1.0。

3)求出新的阈值:
21B
o k Z Z T +=+ (4)
4)如果1+=k k T T ,则结束,否则1+←K K ,转第2步。

二值化后图像如图2(a)所示。

(a)二值化图像(b)表盘图像
图2 图像二值化与表盘提取
2.1灰度变换
一般来说,自然图象的灰度级直方图总是在低值灰度区域数目较大,大部分象素的灰度级低于平均灰度级。

这样,图象上隐含在较暗区域中的细节往往看不清。

我们可以通过构造灰度级变换,改造图象的直方图,使变换后图象的直方图达到一定的要求。

直方图均衡可使原图象灰度级具有相同的出现频数,即灰度级具有均匀的概率分布,具体方法参见文献[4]。

变换效果如图2所示。

(a) (b) (c)
(d) (e)
图 2 (a)原始彩色图象(b)灰度图象(c)均衡图象(d)灰度图象直方图(e)均衡图象直方

2.2图象的二值化
在图像预处理的基础上,根据对象的灰度特征,采用判断分析法对图像进行二值化。

判断分析法是一种自动选择阈值的方法。

它从图像灰度值直方图中把灰度值的集合用初始阈值t分成两类,然后根据两个类的平均值方差(类间方差)和各类的方差(类内方差)的比为最大来确定最终阈值t。

设图像具有L 级的灰度值,初始阈值为k ,把具有k 以上灰度值的像素和具有比它小的值的像素数分为两类:类1和类2。

类1的像素数设为)(1k W ,平均灰度值为)(1k M ,方差为)(1k σ;类2的像素数设为)(2k W ,平均灰度值为)(2k M ,方差为)(2k σ,全体像素的平均值定为T M ,则类内方差由下式计算:
2222112σσσW W W +=
类间方差由下式计算:
221212222112)()()(M M W W M M W M M W T T B -=-+-=σ 为了使2
2W B σσ为最大,最好使2B σ为最大,也就是最好令k 变化,从而求出使
B σ为最大的k 值。

二值化后图像如图3所示。

图3 二值化图像。

相关文档
最新文档