模式识别复习题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、模式识别系统的基本构成单元,并对各单元简要解释
•数据获取:用计算机可以运算的符号来表示所研究的对象
–二维图像:文字、指纹、地图、照片等
–一维波形:脑电图、心电图、季节震动波形等
–物理参量和逻辑值:体温、化验数据、参量正常与否的描述
•预处理单元:去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原
•特征提取和选择:对原始数据进行变换,得到最能反映分类本质的特征–测量空间:原始数据组成的空间
–特征空间:分类识别赖以进行的空间
–模式表示:维数较高的测量空间->维数较低的特征空间
•分类决策:在特征空间中用模式识别方法把被识别对象归为某一类别
–
基本做法:在样本训练集基础上确定某个判决规则,使得按这种规
则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小
2、写出K-均值聚类算法的基本步骤, 例子见布置的作业题.
算法:
第一步:选K 个初始聚类中心,z 1(1),z 2(1),…,z K (1),其中括号内的序号为
寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定,例如可选开始的K 个模式样本的向量值作为初始聚类中心。
第二步:逐个将需分类的模式样本{x}按最小距离准则分配给K 个聚类中心中的某一个z j (1)。
假设i=j 时,}K ,2,1i ,)k (z x min{)k (D i j =-=,则)k (S x j ∈,其中k 为迭代运算的次序号,第一次迭代k=1,S j 表示第j 个聚类,其聚类中心为z j 。
第三步:计算各个聚类中心的新的向量值,z j (k+1),j=1,2,…,K
求各聚类域中所包含样本的均值向量:
其中N j 为第j 个聚类域S j 中所包含的样本个数。以均值向量作为新的聚类中心,可使如下聚类准则函数最小:
在这一步中要分别计算K 个聚类中的样本均值向量,所以称之为K-均值算法。 第四步:若)k (z )1k (z j j ≠+,j=1,2,…,K ,则返回第二步,将模式样本逐个重新分类,
重复迭代运算; 若)k (z )1k (z j j =+,j=1,2,…,K ,则算法收敛,计算结束。
例子:已知{x1(0, 0), x2(1,0), x3(0,1), x4(1,1), x5(2,1), x6(1,2), x7(2,2), x8(3,2) , x9(6,6) , x10(7,6) , x11(8,6) , x12(6,7) , x13(7,7) , x14(8,7) , x15(9,7) , x16(7,8) , x17(8,8) , x18(9,8) , x19(8,9) , x20(9,9)},用K-均值算法进行聚类分析
()
1
(1),1,2,,j j x S k j z k x j K N ∈+=
=∑2
()
(1),
1,2,,j j j x S k J x z k j K
∈=
-+=∑
解:选2k =,11210(1),(1)z x z x ==,
第一步:选取1121007(1),(1)06z x z x ⎛⎫⎛⎫
==== ⎪ ⎪⎝⎭⎝⎭
第二步:根据聚类中心进行聚类,得到
1123456782910111220(1){,,,,,,,}(1){,,,,
}
S x x x x x x x x S x x x x x ==
第三步:计算新的聚类中心
121128(1)
1
291020(1)2 1.250011(2)() 1.125087.666711
(2)()7.333312x S x S z x x x x N z x x x x N ∈∈⎛⎫=
=+++= ⎪
⎝⎭
⎛⎫==+++= ⎪
⎝⎭∑∑
第四步:因(2)(1),1,2j j z z j ≠=,故回到第二步 第二步:根据新的聚类中心重新进行聚类,得到
1123456782910111220(2){,,,,,,,}(2){,,,,
}
S x x x x x x x x S x x x x x ==
第三步:计算新的聚类中心
121128(2)1291020(2)2 1.250011
(3)() 1.12508
7.666711
(3)()7.333312x S x S z x x x x N z x x x x N ∈∈⎛⎫
=
=+++= ⎪
⎝⎭
⎛⎫==+++= ⎪
⎝⎭∑∑
第四步:(3)(2),1,2j j z z j ==,所以算法收敛,得聚类中心为
121.25007.6667,1.12507.3333z z ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭
迭代结束。
3、最、剪辑、压缩近邻法的基本思想。
最近邻法的基本思想:以全部训练样本作为“代表点”,计算测试样本与这些“代表点”,即所有样本的距离,并以最近邻者的类别作为决策。
剪辑近邻法基本思想是,利用现有样本集对其自身进行剪辑,将不同类别交界处的样本以适当方式筛选,可以实现既减少样本数又提高正确识别率的双重目的。
压缩近邻法:利用现有样本集,逐渐生成一个新的样本集,使该样本集在保留最少量样本的条件下,仍能对原有样本的全部用最近邻法正确分类,那末该样本集也就能对待识别样本进行分类,并保持正常识别率。
4、设有 6个 5维模式样本如下,按最小/大距离准则进行聚类分析(直到分成三个类别为止,距离度量采用欧氏距离)
x 1: 0, 3, 1, 2, 0 x 2: 1, 3, 0, 1, 0 x 3: 3, 3, 0, 0, 1 x 4: 1, 1, 0, 2, 0 x 5: 3, 2, 1, 2, 1 x 6: 4, 1, 1, 1, 0 按最大距离准则进行聚类分析: 第1步:将每一样本看成单独一类,得