[1]提出一种图像中角结构(corner)的检测子Harris

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

●检测子
⏹[1]提出一种图像中角结构(corner)的检测子Harris Detector。

它是通过计算图像
中（x, y）点的corner response:
其中指x方向一阶导数。

在计算M之前，图像首先用一个高斯窗平滑过。

Cornerness值大于一定阈值的点被认为是corner。

⏹[5]提出一个称为”Maximally Stable Extremal Region Detector”,即最大稳定性极
值区域检测子。

这个检测子检测到的区域是不规则的，并且该区域满足：
◆区域内的像素点的值都大于（或小于）一个阈值K
◆区域内边缘的点都大于（或小于）和它们相邻的并且在区域外的点
◆当阈值K变换时，该区域的大小不变或只有很小的变化，呈现稳定性
用该方法检测到的区域在图像中主要是位于场景中同一平面的区域，而且这种
方法保留了该区域本来的结构，能够检测到不同尺度的图像特征，具有仿射不
变性和尺度不变性。

⏹[12]提出了一种基于信息熵的检测子。

这种方法首先检测出那些在尺度空间中
同时在空间维和尺度维上信息熵取得最大值的区域，然后检测这些区域的信息
熵在尺度维上的变换剧烈程度，保留那些该变化比较剧烈的区域。

这种基于信
息熵的检测子检测出的区域在空间维和尺度维上具有很好的独特性。

使用如[6]
中提出的椭圆采样窗口可以实现该检测子的仿射不变性。

⏹[16]提出了两种检测子
◆基于Harris Detector的检测子。

该方法首先用Harris Detector检测出角点，
然后以该点为一个顶点，取从该点延伸出的两个边上的两个点做另外两个
顶点做一个平行四边形，然后在该平行四边形区域内的像素值上计算以下
三个函数
With
这三个函数中任意一个在该区域中取得极值的话，就把该区域作为兴趣区域。

可以证明这三个函数和图像的仿射变换和线性光照变换是共变的，因此取得的区域具有仿射不变性和线性光照变换不变性。

基于灰度的检测子。

该方法（参考下图）首先检测出图像中的像素值极值点，然后沿从该点向四周发出射线计算以下函数的值：
其中t是到中心点的欧氏距离，I(t) 是在该点的像素值，是中心点的像素
值。

该函数的最大值点位于图像中像素值突然增大或者减小的地方，比如一个同质区域的边缘。

把所有这些最大值点连接起来并拟合为一个椭圆，然后把该椭圆面积增大一倍，就构成该检测子所检测到的区域。

由于该检测方法是去监测同质的区域，紧紧依赖图像本身的结构，所以具有和图像仿射变换和线性光照变换共变的特性，因此具有仿射不变性和线性光照不变性。

⏹[6]基于Harris Detector 提出了一种尺度和仿射变换无关的检测子。

其尺度不变
性是通过一个迭代的方法实现：
◆第一步，在尺度空间中用Harris Detector寻找极值点
◆第二步，在上一步所求极值点的空间位置上，寻找极值点所在尺度领域内
（如）LoG空间的极值点。

◆第三步，在第二步所求的极值点尺度上，用Harris Detector寻找极值点所
在空间领域内的极值点。

◆如果第三步极值点的位置发生了变换，则返回到第二步，如此反复，直到
最后求得的极值点在空间上的Harris Detecor和尺度领域内的LoG空间同时
取得极值。

通过上述步骤检测出的区域是具有尺度不变性的角点区域。

其仿射无关的算法
我还没有完全看明白，目前仍然在继续研究。

●描述子
⏹[17]在检测子检测到的区域选取41 * 41大小的一块，然后在该块内计算每一点
的水平梯度和垂直梯度，得到一个2 * 39 * 39 = 3042的区域特征向量。

在一个
具有各种图像的较大的图像库上，提取该图像库中所有图像的所有特征向量，
然后对所有这些向量采用PCA技术得到一个降维的投影矩阵。

然后该矩阵可以
用于图像库以外的其他任何图像中提取出的特征向量的降维。

最终得到的局部
特征描述向量维数比SIFT描述子还要低（[17]中使用20维）。

⏹[4]提出一种称为ARPIH（Angular Radial Partitioning Intensity Histogram）的描述
子。

该描述子（可参看下图）提取一个圆形兴趣区域，然后按照径向和角度划
分为12个子区域，每一个子区域计算灰度直方图，然后把所有的这些子区域
的灰度直方图拼接起来并进行归一化得到最终的描述子。

⏹[8]在SIFT描述子的基础之上提出了一种称为GLOH(gradient location and
orientation histogram)的描述子。

该描述子（可参看下图）将检测到的兴趣区域
按照径向和角度划分为17个子区域，然后每一个区域按照SIFT描述子的方法
计算灰度梯度直方图，其中梯度角度划分为16个bin，然后各子区域的梯度直
方图拼接成一个向量并用PCA降维，得到一个128维的最终的描述子。

⏹[8]对9种的描述子的效果做了一个评测，包括SIFT，GLOH，Shape Context，
PCA-SIFT，Spin image，Steerable filters，differential invariants，Complex filters，Moment invariants 以及Cross correlation。

从该工作可以看到，在纹理占主要成
分的图像（textured image）中，SIFT效果最好，在结构占主要成分的图像
(structured image)中，GLOH最好。

当不能接受SIFT或GLOH描述子的维数时，
可以选择gradient moments或者steerable filters。

其他延伸阅读
⏹[11]结合局部特征点提取方法实现了一种视频搜索技术。

该方法首先提取关键
帧，然后在关键帧中提取局部特征点描述子，然后采用文档索引的方法，以描
述子为索引键，以该描述子所在的所有关键帧为索引对象。

这样每一个关键帧
转换为一个向量，如果一个特征描述子在该关键帧出现了，该描述子对应的那
一维为1（或者为一个权重值，该权重值可按照tf-idf的方式分配），否则为0。

在提取和描述特帧时可以使用多种检测子和描述子，如结合检测角点的
harris-laplace检测子或者是检测圆形区域的基于DoG的检测子。

⏹[10]采用了局部特征点提取和匹配的方法，把一组照片聚类，同时对同一聚类
内的照片，然后计算照片间的视角变化，按照其视角的变换顺序将类内的照片
排序。

⏹[18]是一个image registration 领域内的综述。

Image registration 是一个将不同
视角下，不同时间甚至是不同类型的拍摄设备拍摄的同一场景的照片进行配准
的过程，其和图像匹配的任务十分相似。

Image registration 分为四个步骤：1. 检
测并描述特征点。

2. 特征匹配。

3. 设计映射函数。

4. 图像变形和重采样。

我认为图像匹配和图像配准的最大区别就在于第3和第4步，图像匹配并不需
要将一副图像真正变形和重采样后与另一幅图像做配准，而只是需要找到图像
间的对应关系，如外极约束等。

但是图像匹配和配准任务还是有很多重和的地
方，如配准的前两个步骤，可以作为同一个问题进行研究。

⏹[14]提出了尺度空间理论。

虽然我对其具体的数学推导看的还不是很明白，但
是有两点还是很有启发。

首先，任何图像特征都是在一定尺度下考虑才有意
义，例如一片树叶，假如我们在原子分子尺度或者是光年尺度上去讨论它所成
的图像特征都是没有意义的。

物体的特征依赖于一定的空间尺度(characteristic
length)，而该尺度与具体成像的过程无关，所以如果我们充分分析成像物体本
身的特征尺度，而将图像间的尺度比例因素去除掉，就可以得到与图像本身尺
度无关而只和空间物体本身尺度相关的所谓“尺度无关”的局部特征描述，而
这就需要我们在多个尺度下去分析图像，高斯金子塔，尺度空间以及小波分析
都是多尺度分析的工具。

其次，高斯核是唯一的具有半群结构同时随着尺度增
加不会增加图像中新的极值点的平滑核，因此是唯一能够产生尺度空间的卷积
核。

文献
[1] Harris, C. and Stephens, M. 1988. A combined corner and edge detector. In Alvey Vision Conference, pp. 147–151.
[2] Kadir, T. and Brady, M. 2001. Saliency, Scale and Image Description. Int. J. Comput. Vision 45, 2 (Nov. 2001), 83-105.
[3] Kolomenkin, M.; Shimshoni, I., "Image Matching Using Photometric Information," Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on , vol.2, no., pp. 2506-2514, 2006
[4] Lei Qin; Wen Gao, "Image matching based on a local invariant descriptor," Image Processing, 2005. ICIP 2005. IEEE International Conference on , vol.3, no., pp. III-377-80,
11-14 Sept. 2005
[5] Matas, J., Chum, O., Urban, M., and Pajdla, T. 2004. Robust wide-baseline stereo from maximally stable extremal regions.Image and Vision Computing 22(10):761–767
[6] Mikolajczyk, K. and Schmid, C. 2004. Scale & Affine Invariant Interest Point Detectors. Int. J. Comput. Vision 60, 1 (Oct. 2004), 63-86.
[7] Mikolajczyk, K., Tuytelaars, T., Schmid, C., Zisserman, A., Matas, J., Schaffalitzky, F., Kadir, T., and Gool, L. V. 2005. A Comparison of Affine Region Detectors. Int. J. Comput. Vision 65, 1-2 (Nov. 2005), 43-72.
[8] Mikolajczyk, K.; Schmid, C., "A performance evaluation of local descriptors," Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.27, no.10, pp. 1615-1630, Oct. 2005
[9] Olson, C.F., "Maximum-likelihood image matching," Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.24, no.6, pp.853-857, Jun 2002
[10] Schaffalitzky, F., and Zisserman, A. 2002. Multi-view matching for unordered image sets, or “How do I organize my holiday snaps?”. In Proceedings of the 7th European Conference on Computer Vision, Copenhagen, Denmark, pp. 414–431.
[11] Sivic, J.; Zisserman, A., "Video Google: a text retrieval approach to object matching in videos," Computer Vision, 2003. Proceedings. Ninth IEEE International Conference on , vol., no., pp. 1470-1477 vol.2, 13-16 Oct. 2003
[12] T. Kadir, A. Zisserman, and M. Brady. An affine invariant salient region detector. In Proc. ECCV, 2004.
[13] T. Lindeberg, “Feature Detection with Automatic Scale Selection,” Int"l J. Computer Vision, vol. 30, no. 2, pp. 79-116, 1998.
[14] T. Lindeberg. Scale-space theory: A basic tool for analysing structures at different scales. J. Appl. Stat., 21(2):223--261, 1994b.
[15] Toshev, Alexander; Shi, Jianbo; Daniilidis, Kostas, "Image Matching via Saliency Region Correspondences," Computer Vision and Pattern Recognition, 2007. CVPR '07. IEEE Conference on , vol., no., pp.1-8, 17-22 June 2007
[16] Tuytelaars, T. and Van Gool, L. 2004. Matching Widely Separated Views based on Affine Invariant Regions. International Journal on Computer Vision 59(1):61–85.
[17] Y. Ke and R. Sukthank ar, “PCA-SIFT: A More Distinctive Representation for Local Image Descriptors,” Proc. Conf. Computer Vision and Pattern Recognition, pp. 511-517, 2004.
[18] Zitová B,Flusser J.Image registration methods:A survey[J].Image and Vision Computing,2003,21(11):977-1000.。