中国地质大学-模式识别实习报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《模式识别》上机实习报告
学号:
班级序号:
姓名:
指导老师:
中国地质大学(武汉)信息工程学院遥感系
2017年4月
一、用贝叶斯估计做二类分类
【问题描述】
利用贝叶斯估计将某地区的遥感图像数据做二类分类,将图像中的裸土和水田加以区分,并使用envi classic的color mapping工具将分类好的图像加以颜色。
【模型方法】
与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。
最大似然分类是图像处理中最常用的一种监督分类方法,它利用了遥感数据的统计特征,假定各类的分布函数为正态分布,在多变量空间中形成椭圆或椭球分布,也就是和中个方向上散布情况不同,按正态分布规律用最大似然判别规则进行判决,得到较高准确率的分类结果。
否则,用平行六面体或最小距离分类效果会更好。
【方案设计】
(1)确定需要分类的地区和使用的波段和特征分类数,检查所用各波段或特征分量是否相互已经位置配准;
(2)根据已掌握的典型地区的地面情况,在图像上选择训练区;
(3)计算参数,根据选出的各类训练区的图像数据,计算和确定先验概率;
(4)分类,将训练区以外的图像像元逐个逐类代入公式,对于每个像元,分几类就计算几次,最后比较大小,选择最大值得出类别;
(5)产生分类图,给每一类别规定一个值,如果分10 类,就定每一类分别为1 ,2 ……10 ,分类后的像元值便用类别值代替,最后得到的分类图像就是专题图像. 由于最大灰阶值等于类别数,在监视器上显示时需要给各类加上不同的彩色;
(6)检验结果,如果分类中错误较多,需要重新选择训练区再作以上各步,直到结果满意为止。
【结果讨论】
优点:
(1)生成式模型,通过计算概率来进行分类,可以用来处理多分类问题,(2)对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法
也比较简单。
缺点:
(1)对输入数据的表达形式很敏感。
(2)需要计算先验概率,分类决策存在错误率。
局部区域:
精度评价步骤:
(1)首先需要将外部程序生成的分类文件转化为ENVI可以识别的分类图,方法如下:
Envi打开图像
->Tools->Color Mapping->Density Slice->Set default numer of ranges(设置为聚类数目)->Applydefault ranges->output ranges to class image (2)对分类结果进行合并与命名
(3)从参考影像(高分辨率影像)上选取ROI并命名,方法:
Envi打开图像->Tools->Region of Interest->ROI Tools
(4)将ROI文件与分类图像相关联,方法:
Basic Tools->Region of Interest->Reconcile ROIs Parameters->输入参考影像->输入分类影像
(5)
Classification->Post Classification->Confusion Matrix->Using Ground Tr uth ROIs
二、用Fisher估计做二类分类
【问题描述】
利用Fisher估计将某地区的遥感图像数据做二类分类,将图像中的裸土和水田加以区分,并使用envi classic的color mapping工具将分类好的图像加以颜色。
【模型方法】
设计线性分类器首先要确定准则函数,然后再利用训练样本集确定该分类器的参数,以求使所确定的准则达到最佳。
在使用线性分类器时,样本的分类由其判别函数值决定,而每个样本的判别函数值是其各分量的线性加权和再加上一阈值w0。
如果我们只考虑各分量的线性加权和,则它是各样本向量与向量W的向量点积。
如果向量W的幅度为单位长度,则线性加权和又可看作各样本向量在向量W上的投影。
显然样本集中向量投影的分布情况与所选择的W向量有关,图3.3表示了在一个二维空间两个类别样本在两个不同的向量w1与w2上投影分布的情况。
其中用红点及蓝点分别表示不同类别的样本。
显然对向量的投影能使这两类有明显可分开的区域,而对向量的投影,则使两类数据部分交迭在一起,无法找到一个能将它们截然分开的界面。
Fisher准则的基本原理,就是要找到一个最合适的投影轴,使两类样本在该轴上投影的交迭部分最少,从而使分类效果为最佳。
【方案设计】
(1)计算各类样本的均值向量mi,Ni 是类ωi 的样本个数
(2)计算样本类内离散度矩阵Si 和总类内离散度矩阵Sw 。
(3)计算样本类间离散度矩阵Sb 。
Sb=(m1−m2)(m1−m2)T 。
(4) 求向量w ∗ 。
为此定义Fisher 准则函数
使得JF(W) 取的最大值的w ∗ 为:w ∗=S−1w(m1−m2) 。
(5)将训练集内所有样本进行投影。
(6)计算在投影空间上的分割阈值y0 。
阈值的选取可以有不同的方案,比较常用的一种为
X y w T
)(*
(7)对于给定的X ,计算它在w *
上的投影点y 。
(8)根据决策规则分类,有
【结果讨论】
优点:
(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。
(2)Fisher 方法可直接求解权向量
(3)Fisher 的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher 还可以进一步推广到多类问题中去
缺点:
(1)对线性不可分的情况,Fisher 方法无法确定分类
X y w T )(*
局部区域:
精度评估:
三、用k-means算法对图像进行分类
【问题描述】
利用k-means算法对某地区的遥感图像数据进行分类,将图像中的裸土和水田加以区分,并使用envi classic的color mapping工具将分类好的图像加以颜色。
【模型方法】
K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。
顾名思义K-Means是一种通过均值对数据点进行聚类的算法。
K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。
并通过划分后的均值迭代优化获得最优的聚类结果。
K值是聚类结果中类别的数量。
简单的说就是我们希望将数据划分的类别数。
K值决定了初始质心的数量。
K值为几,就要有几个质心。
选择最优K值没有固定的公式或方法,需要人工来指定,建议根据实际的业务需求,或通过层次聚类的方法获得数据的类别数量作为选择K 值的参考。
这里需要注意的是选择较大的K值可以降低数据的误差,但会增加过拟合的风险。
【方案设计】
(1)未聚类的初始点集
(2)随机选取两个点作为聚类中心
(3)计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
(4)计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
(5)重复(3),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
(6)重复(4),计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
【结果讨论】
优点:
原理简单,实现容易,聚类效果中上
缺点:
(1)无法确定K的个数
(2)对离群点敏感(容易导致中心点偏移)
(3)算法复杂度不易控制,迭代次数可能较多
(4)局部最优解而不是全局优(这个和初始点选谁有关)
(5)结果不稳定(受输入顺序影响)
局部区域
精度评估:
实习心得
经过一个学期对《模式识别》的学习,我学习到了基本的理论知识,了解到了计算机处理图像的思想,了解到了神经网络,深度学习的原理,这些知识都为我的课程实践和进一步的学习打下了坚实的基础。
在本次实习上机中,我体会颇多,学到了很多东西。
我加强了对模式识别这门课程的认识,并且复习了自己以前学习到的知识。
这些都使得我对计算机有了更深入的认识!总之,通过这次课程设计,我收获颇丰,相信会为自己以后的学习和工作带来很大的好处。
通过上机实习的训练,我进一步学习和掌握了对程序的设计和编写,从中体会到了各种算法的方便和巧妙。
像k-means算法就是一个原理很简单但分类效果很好的算法,这种借助计算机进行数据处理的思维,让我开阔了视野,也锻炼了我的动手能力。
由于时间的紧迫和对知识的了解不够广泛,造成了代码中还存在许多不足,对于图像处理的过程也仅仅使用了一个波段。
以后我会继续努力,大胆创新,争取能编写出更全面的程序。
这次课程设计让我充分认识到了自己的不足,认识到了动手能力的重要性。
我会在以后的学习中更加努力锻炼自己,不断的提高自己!
最后,对于本次实习中给予我帮助的老师,助教以及同学,表达我由衷的感谢!。