模式识别与机器学习思测试卷附参考标准答案
《模式识别及其应用》试卷(A)标准答案
2006~2007学年第二学期期末考试《模式识别及其应用》试卷(A)标准答案一、结合自己的理解对如下基本概念作出解释(每小题4分, 共20分)(1)模式识别和模式(2)样本的规范化(3)最近邻法(4)非监督参数估计(5)特征的选择与特征提取答:(1)模式识别就是要用机器去完成人类智能中通过视觉听觉触觉等感官去识别外界环境的自然信息的这些工作。
存在于时间和空间中可观察的事物,如果我们可以区别它们是否相同或是相似,都可以称为模式,但模式所指的不是事物本身,而是我们从事物获得的信息, 因此, 模式往往表现为具有时间和空间分布的信息。
(2)如果样本集,,……,时线性可分的,则必存在某个或某些权向量,使得对于任何都有,而对于任何,都有,如果在来自的样本前面加上一个负号,即令,有则,我们称这一过程为样本的规范化。
(3)最近邻法就是对待识别的模式向量,只要比较与所有已知类别的样本之间的欧式距离,并决策与离它最近的样本同类。
(4)非监督参数估计已知总体概率密度函数的形式但未知样本所属类别,要求推断出概率密度函数的某些参数。
(5)特征提取在原始特征的维数很高的情况下,基于某种类别可分离性判据通过变换的方法用低维空间来表示样本,这个过程叫特征提取。
特征选择基于某种类别可分离性判据,从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,称为特征选择。
二、问答题(每小题5分, 共35分)(1)指出在Fisher线性判别中,的比例因子对Fisher判别结果无影响的原因。
(2)对于同一个决策规则判别函数可定义成不同形式,从而有不同的决策面方程,指出决策区域是不变的。
(3)类别可分离性判据应满足的基本条件是什么?(4)应用线性判别函数方法和Bayes决策方法进行模式分类各自的前提是什么?(5)试说明Mahalanobis距离平方的定义,到某点的Mahalanobis距离平方为常数的轨迹的几何意义,它与欧氏距离的区别与联系。
模式识别试卷及答案
模式识别试卷及答案一、选择题(每题5分,共30分)1. 以下哪一项不是模式识别的主要任务?A. 分类B. 回归C. 聚类D. 预测答案:B2. 以下哪种算法不属于监督学习?A. 支持向量机(SVM)B. 决策树C. K最近邻(K-NN)D. K均值聚类答案:D3. 在模式识别中,以下哪一项是特征选择的目的是?A. 减少特征维度B. 增强模型泛化能力C. 提高模型计算效率D. 所有上述选项答案:D4. 以下哪种模式识别方法适用于非线性问题?A. 线性判别分析(LDA)B. 主成分分析(PCA)C. 支持向量机(SVM)D. 线性回归答案:C5. 在神经网络中,以下哪种激活函数常用于输出层?A. SigmoidB. TanhC. ReLUD. Softmax答案:D6. 以下哪种聚类算法是基于密度的?A. K均值聚类B. 层次聚类C. DBSCAND. 高斯混合模型答案:C二、填空题(每题5分,共30分)1. 模式识别的主要任务包括______、______、______。
答案:分类、回归、聚类2. 在监督学习中,训练集通常分为______和______两部分。
答案:训练集、测试集3. 支持向量机(SVM)的基本思想是找到一个______,使得不同类别的数据点被最大化地______。
答案:最优分割超平面、间隔4. 主成分分析(PCA)是一种______方法,用于降维和特征提取。
答案:线性变换5. 神经网络的反向传播算法用于______。
答案:梯度下降6. 在聚类算法中,DBSCAN算法的核心思想是找到______。
答案:密度相连的点三、简答题(每题10分,共30分)1. 简述模式识别的基本流程。
答案:模式识别的基本流程包括以下几个步骤:(1)数据预处理:对原始数据进行清洗、标准化和特征提取。
(2)模型选择:根据问题类型选择合适的模式识别算法。
(3)模型训练:使用训练集对模型进行训练,学习数据特征和规律。
最新模式识别试题标准答案及评分标准(B卷)资料
国防科技大学2008-2009学年秋季学期《模式识别》考试试卷(B)卷标准答案及评分标准考试形式:闭卷考试时间: 120 分钟满分: 100 分。
注意:1、所有答题都须写在此试卷纸密封线右边,写在其它纸上一律无效。
2、密封线左边请勿答题,密封线外不得有姓名及相关标记。
一、选择填空题(共8小题,每空2分,共30分)1、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有(②③)。
①已知类别样本质量;②分类准则;③特征选取;④量纲。
2、欧式距离具有(①②);马式距离具有(①②③④)。
①平移不变性;②旋转不变性;③尺度缩放不变性;④不受量纲影响的特性。
3、线性判别函数的正负和数值大小的几何意义是(正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。
)。
4、感知器算法( ① )。
①只适用于线性可分的情况; ②线性可分、不可分都适用。
5、积累位势函数法较之于H-K 算法的优点是(用于非线性可分情况(也可用于线性可分情况) );位势函数K(x,x k )与积累位势函数K(x)的关系为(j j()(,)jx XK x K x x α∈=∑,112111210,()(()0)0,()(()0)1,()(()0)1,()(()0)j j j j j j j j j if x and K x if x and K x if x and K x if x and K x ωωαωω----∈>⎧⎪∈<⎪=⎨-∈≤⎪⎪-∈≤⎩)。
6、在统计模式分类问题中,聂曼-皮尔逊判决准则主要用于(某一种判决错误较另一种判决错误更为重要的)情况;最小最大损失判决准则主要用于(先验概率未知的)情况。
7、“特征个数越多越有利于分类”这种说法正确吗?( 错 )。
特征选择的主要目的是(从n 个特征中选出最有利于分类的的m 个特征(m<n ),以降低特征维数)。
模式识别习题及答案
模式识别习题及答案模式识别习题及答案【篇一:模式识别题目及答案】p> t,方差?1?(2,0)-1/2??11/2??1t,第二类均值为,方差,先验概率??(2,2)?122???1??1/21??-1/2p(?1)?p(?2),试求基于最小错误率的贝叶斯决策分界面。
解根据后验概率公式p(?ix)?p(x?i)p(?i)p(x),(2’)及正态密度函数p(x?i)?t(x??)?i(x??i)/2] ,i?1,2。
(2’) i?1基于最小错误率的分界面为p(x?1)p(?1)?p(x?2)p(?2),(2’) 两边去对数,并代入密度函数,得(x??1)t?1(x??1)/2?ln?1??(x??2)t?2(x??2)/2?ln?2(1) (2’)1?14/3-2/3??4/32/3??1由已知条件可得?1??2,?1,?2??2/34/3?,(2’)-2/34/31设x?(x1,x2)t,把已知条件代入式(1),经整理得x1x2?4x2?x1?4?0,(5’)二、(15分)设两类样本的类内离散矩阵分别为s1??11/2?, ?1/21?-1/2??1tt,各类样本均值分别为?1?,?2?,试用fisher准(1,0)(3,2)s2-1/21??(2,2)的类别。
则求其决策面方程,并判断样本x?解:s?s1?s2??t20?(2’) ??02?1/20??-2??-1?*?1w?s()?投影方向为12?01/22?1? (6’) ???阈值为y0?w(?1??2)/2??-1-13 (4’)*t2?1?给定样本的投影为y?w*tx??2-1?24?y0,属于第二类(3’) ??1?三、(15分)给定如下的训练样例实例 x0 x1 x2 t(真实输出) 1 1 1 1 1 2 1 2 0 1 3 1 0 1 -1 4 1 1 2 -1用感知器训练法则求感知器的权值,设初始化权值为w0?w1?w2?0;1 第1次迭代2 第2次迭代(4’)(2’)3 第3和4次迭代四、(15分)i. 推导正态分布下的最大似然估计;ii. 根据上步的结论,假设给出如下正态分布下的样本,估计该部分的均值和方差两个参数。
大学模式识别考试题及答案详解
大学模式识别考试题及答案详解Document number:PBGCG-0857-BTDO-0089-PTT1998一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2) (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A?01, A? 0A1 , A? 1A0 , B?BA , B? 0}, A)(2)({A}, {0, 1}, {A?0, A? 0A}, A)(3)({S}, {a, b}, {S ? 00S, S ? 11S, S ? 00, S ? 11}, S)(4)({A}, {0, 1}, {A?01, A? 0A1, A? 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分)(1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
大学模式识别考试题及答案详解
一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2) (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A→01, A→ 0A1 , A→ 1A0 , B→BA , B→ 0}, A)(2)({A}, {0, 1}, {A→0, A→ 0A}, A)(3)({S}, {a, b}, {S → 00S, S → 11S, S → 00, S → 11}, S)(4)({A}, {0, 1}, {A→01, A→ 0A1, A→ 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分)(1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
答:(1)(4分)的绝对值正比于到超平面的距离平面的方程可以写成式中。
大学模式识别考试题及答案详解完整版
大学模式识别考试题及答案详解HUA system office room 【HUA16H-TTMS2A-HUAS8Q8-HUAH1688】一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2) (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A01, A 0A1 , A 1A0 , B BA , B 0}, A)(2)({A}, {0, 1}, {A0, A 0A}, A)(3)({S}, {a, b}, {S 00S, S 11S, S 00, S 11}, S)(4)({A}, {0, 1}, {A01, A 0A1, A 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分)(1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
大学模式识别考试题及答案详解
一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2)(3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A?01, A? 0A1 , A? 1A0 , B?BA , B? 0}, A) (2)({A}, {0, 1}, {A?0, A? 0A}, A)(3)({S}, {a, b}, {S ? 00S, S ? 11S, S ? 00, S ? 11}, S)(4)({A}, {0, 1}, {A?01, A? 0A1, A? 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分) (1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
答:(1)(4分)的绝对值正比于到超平面的距离平面的方程可以写成式中。
(完整word版)模式识别题目及答案(word文档良心出品)
一、(15分)设有两类正态分布的样本集,第一类均值为T1μ=(2,0),方差11⎡⎤∑=⎢⎥⎣⎦11/21/2,第二类均值为T2μ=(2,2),方差21⎡⎤∑=⎢⎥⎣⎦1-1/2-1/2,先验概率12()()p p ωω=,试求基于最小错误率的贝叶斯决策分界面。
解 根据后验概率公式()()()()i i i p x p p x p x ωωω=, (2’)及正态密度函数11/21()exp[()()/2]2T i i i i nip x x x ωμμπ-=--∑-∑ ,1,2i =。
(2’) 基于最小错误率的分界面为1122()()()()p x p p x p ωωωω=, (2’) 两边去对数,并代入密度函数,得1111112222()()/2ln ()()/2ln T T x x x x μμμμ----∑--∑=--∑--∑ (1) (2’)由已知条件可得12∑=∑,114/3-⎡⎤∑=⎢⎥⎣⎦4/3-2/3-2/3,214/3-⎡⎤∑=⎢⎥⎣⎦4/32/32/3,(2’)设12(,)Tx x x =,把已知条件代入式(1),经整理得1221440x x x x --+=, (5’)二、(15分)设两类样本的类内离散矩阵分别为11S ⎡⎤=⎢⎥⎣⎦11/21/2, 21S ⎡⎤=⎢⎥⎣⎦1-1/2-1/2,各类样本均值分别为T 1μ=(1,0),T2μ=(3,2),试用fisher 准则求其决策面方程,并判断样本Tx =(2,2)的类别。
解:122S S S ⎡⎤=+=⎢⎥⎣⎦200 (2’) 投影方向为*112-2-1()211/2w S μμ-⎡⎤⎡⎤⎡⎤=-==⎢⎥⎢⎥⎢⎥--⎣⎦⎣⎦⎣⎦1/200 (6’)阈值为[]*0122()/2-1-131T y w μμ⎡⎤=+==-⎢⎥⎣⎦(4’)给定样本的投影为[]*0-12241T y w x y ⎡⎤===-<⎢⎥-⎣⎦, 属于第二类 (3’)三、 (15分)给定如下的训练样例实例 x0 x1 x2 t(真实输出) 1 1 1 1 1 2 1 2 0 1 3 1 0 1 -1 4 1 1 2 -1用感知器训练法则求感知器的权值,设初始化权值为0120w w w ===;1 第1次迭代(4’)2 第2次迭代(2’)3 第3和4次迭代四、 (15分)i. 推导正态分布下的最大似然估计;ii. 根据上步的结论,假设给出如下正态分布下的样本{}1,1.1,1.01,0.9,0.99,估计该部分的均值和方差两个参数。
大学模式识别考试题及答案详解
一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2)(3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A?01, A? 0A1 , A? 1A0 , B?BA , B? 0}, A) (2)({A}, {0, 1}, {A?0, A? 0A}, A)(3)({S}, {a, b}, {S ? 00S, S ? 11S, S ? 00, S ? 11}, S)(4)({A}, {0, 1}, {A?01, A? 0A1, A? 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分) (1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
答:(1)(4分)的绝对值正比于到超平面的距离平面的方程可以写成式中。
大学模式识别考试题及答案详解优选稿
大学模式识别考试题及答案详解内部编号:(YUUT-TBBY-MMUT-URRUY-UOOY-DBUYI-0128)一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2) (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A01, A 0A1 , A 1A0 , B BA , B 0}, A)(2)({A}, {0, 1}, {A0, A 0A}, A)(3)({S}, {a, b}, {S 00S, S 11S, S 00, S 11}, S)(4)({A}, {0, 1}, {A01, A 0A1, A 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分)(1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
大学模式识别考试题及答案详解
大学模式识别考试题及答案详解一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2)(3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A→01, A→0A1 , A→1A0 , B→BA , B→ 0}, A)(2)({A}, {0, 1}, {A→0, A→ 0A}, A) (3)({S}, {a, b}, {S → 00S, S → 11S, S →00, S → 11}, S)(4)({A}, {0, 1}, {A→01, A→0A1, A→1A0},A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分)(1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
答:(1)(4分)的绝对值正比于到超平面的距离平面的方程可以写成式中。
大学模式识别考试题及答案详解
一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2)(3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A?01, A? 0A1 , A? 1A0 , B?BA , B? 0}, A)(2)({A}, {0, 1}, {A?0, A? 0A}, A)(3)({S}, {a, b}, {S ? 00S, S ? 11S, S ? 00, S ? 11}, S)(4)({A}, {0, 1}, {A?01, A? 0A1, A? 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分)(1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
答:(1)(4分)的绝对值正比于到超平面的距离平面的方程可以写成式中。
《模式识别与机器学习》习题和参考答案
(μ i , i ), i 1, 2 ,可得
r (x) ln p(x | w 1) ln p(x | w 2)
d
1
1
(x μ1 ) 1 (x μ1 ) ln 2 ln | |
2
2
2
d
1
1
(x μ 2 ) 1 (x μ 2 ) ln 2 ln | |
(2-15)可简化为
1
gi ( x) (x μi ) 1 (x μi ).
2
(2-17)
将上式展开,忽略与 i 无关的项 x 1x ,判别函数进一步简化为
1
gi (x) ( 1μi ) x μi 1μi .
2
(2-18)
此时判别函数是 x 的线性函数,决策面是一个超平面。当决策区域 Ri 与 R j 相邻时,
190%
(2-13)
最小风险贝叶斯决策会选择条件风险最小的类别,即 h( x) 1 。
3.
给出在两类类别先验概率相等情况下,类条件概率分布是相等对角协方差
矩阵的高斯分布的贝叶斯决策规则,并进行错误率分析。
答:
(1)首先给出决策面的表达式。根据类条件概率分布的高斯假设,可以
得到
p(x | w i )
2
2
2
1
1
1 ||
(x μ1 ) 1 (x μ1 ) (x μ 2 ) 1 (x μ 2 ) ln
2
2
2 ||
1
(μ 2 μ1 ) 1x (μ1 1μ1 μ 2 1μ 2 ).
2
(2-28)
(精品)模式识别试题答案及评分标准
一、填空与选择填空(本题答案写在此试卷上,30分)1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。
3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。
(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。
(1)(2) (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。
(1)二维空间(2)一维空间(3)N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。
(1)感知器算法(2)H-K算法(3)积累位势函数法8、下列四元组中满足文法定义的有(1)(2)(4)。
(1)({A, B}, {0, 1}, {A→01, A→ 0A1 , A→ 1A0 , B→BA , B→ 0}, A)(2)({A}, {0, 1}, {A→0, A→ 0A}, A)(3)({S}, {a, b}, {S → 00S, S → 11S, S → 00, S → 11}, S)(4)({A}, {0, 1}, {A→01, A→ 0A1, A→ 1A0}, A)二、(15分)简答及证明题(1)影响聚类结果的主要因素有那些?(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:(2分)(2分)(1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
答:(1)(4分)的绝对值正比于到超平面的距离平面的方程可以写成式中。
模式识别样卷参考解答 (2)
1、 提纲:第1、2、3、4、5、7、8章所学内容 2、 题型: 一、填空题1. 模式识别系统主要由四个部分组成,即:1数据获取 2预处理 3特征提取和选择4分类决策。
2. 贝叶斯决策最常用的准则 (1)最小错误率准则 (2)最小风险准则3. 请写出样本x 和均值u 之间的欧式距离 ,以及马式距离为开根号3. 名词解释(先英文全拼,后中文解释,6分):PCA :Principal Component Analysis,主成分分析. NN :Neural Networks, 神经网络. PR :Pattern Recognition ,模式识别 4. 根据平方误差准则函数2221()()NT s i i i J Y b ===-=-∑a ea b a y ,其最小二乘近似解(MSE 解)为5. 估计量的评价标准 1 无偏性 , 2___有效性__3__一致性__。
二、简述题1. 试结合K-L 变换简述人脸识别的过程。
书223 答:1.从给定样本集中选取训练集,训练集的大小可选,但直接影响识别的正确率。
2.根据生产矩阵E[(x-μ) (x-μ)T ]计算出特征脸。
为了简化计算,这里用到奇异 值分解,其基本原理是通过计算较低矩阵的特征值和特征向量而间接求出较高 维矩阵的特征向量(特征脸)。
3.求出训练集中各图像在特征脸空间中的坐标。
4.通过将待识别样本f 投影到特征脸子空间求出其系数向量然重建图像最后考 虑图像的信噪比,若小于阈值则可判断f 不是人脸图像。
2. 单层感知器和多层感知器神经网络的主要缺陷分别是什么?BP 算法的基本思想是什么,存在哪些不足?书254答:单层感知器缺陷:无法解决异或问题,不具备非线性分类能力。
多层感知器缺陷:对于一些识别中需要有可靠的拒绝的情况(如身份确定),多 层感知器神经网络无法胜任。
BP 算法其主要思想:从后向前(反向)逐层传播输出层的误差,以间接算出 隐层误差。
BP 算法缺陷:1.有可能陷入局部极小值点,不能保证收敛到全局极小值点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模式识别与机器学习期末考查思考题1:简述模式识别与机器学习研究的共同问题和各自的研究侧重点。
机器学习是研究让机器(计算机)从经验和数据获得知识或提高自身能力的科学。
机器学习和模式识别是分别从计算机科学和工程的角度发展起来的。
然而近年来,由于它们关心的很多共同问题(分类、聚类、特征选择、信息融合等),这两个领域的界限越来越模糊。
机器学习和模式识别的理论和方法可用来解决很多机器感知和信息处理的问题,其中包括图像/ 视频分析、(文本、语音、印刷、手写)文档分析、信息检索和网络搜索等。
近年来,机器学习和模式识别的研究吸引了越来越多的研究者,理论和方法的进步促进了工程应用中识别性能的明显提机器学习:要使计算机具有知识一般有两种方法;一种是由知识工程师将有关的知识归纳、整理,并且表示为计算机可以接受、处理的方式输入计算机。
另一种是使计算机本身有获得知识的能力,它可以学习人类已有的知识,并且在实践过程中不总结、完善,这种方式称为机器学习。
机器学习的研究,主要在以下三个方面进行:一是研究人类学习的机理、人脑思维的过程;和机器学习的方法;以及建立针对具体任务的学习系统。
机器学习的研究是在信息科学、脑科学、神经心理学、逻辑学、模糊数学等多种学科基础上的。
依赖于这些学科而共同发展。
目前已经取得很大的进展,但还没有能完全解决问题。
模式识别:模式识别是研究如何使机器具有感知能力,主要研究视觉模式和听觉模式的识别。
如识别物体、地形、图像、字体(如签字)等。
在日常生活各方面以及军事上都有广大的用途。
近年来迅速发展起来应用模糊数学模式、人工神经网络模式的方法逐渐取代传统的用统计模式和结构模式的识别方法。
特别神经网络方法在模式识别中取得较大进展。
理解自然语言计算机如能“听懂”人的语言(如汉语、英语等),便可以直接用口语操作计算机,这将给人们带来极大的便利。
计算机理解自然语言的研究有以下三个目标:一是计算机能正确理解人类的自然语言输入的信息,并能正确答复(或响应)输入的信息。
二是计算机对输入的信息能产生相应的摘要,而且复述输入的内容。
三是计算机能把输入的自然语言翻译成要求的另一种语言,如将汉语译成英语或将英语译成汉语等。
目前,研究计算机进行文字或语言的自动翻译,人们作了大量的尝试,还没有找到最佳的方法,有待于更进一步深入探索。
机器学习今后主要的研究方向如下:1)人类学习机制的研究;2)发展和完善现有学习方法,建立实用的学习系统,特别是开展多种学习方法协同工作的集成化系统的研究;通过多个现有的具体例子进行分析,归纳为更一般的概念. 机器学习所关注的一个根本问题是如何提高学习系统的泛化能力,或者说是机器在数据中发现的模式怎样才能具有良好的推广能力. 机器学习的研究主旨是使用计算机模拟人类的学习活动,它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。
模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析, 以对事物或现象进行描述、辨认、分类和解释的过程, 是信息科学和人工智能的重要组成部分。
模式识别的研究的内容是指利用计算机对要分析的客观事物与标准模板的通过某种模式算法,对其进行分类,在错误概率最小的条件,使识别到的结果最接近于待识别的客观事实。
先用一定数量的样本,根据它们之间的相似性进行分类器设计,而后用所设计的分类器对待识别的样本进行分类决策.目前模式识别的主要研究的是提取目标的运动特征,或在此基础上进行对目标的整体的运动轨迹进行研究,2:列出在模式识别与机器学习中的常用算法及其优缺点。
1.k- 近邻法近邻法是一种最简单的非参数模式识别方法中的模式匹配法, 它主要依据样本间的多维空间距离来实现分类.令Dn二{x1,x2,…,xn},其中,每一个样本所属的类别均已知.对于测试样本点x,分类是,在集合Dn中与每个模板进行--------- 比较,将距离最近的点标记为x'.那么,近邻法就是把点x分为x'所属类别.(1 )优点:算法简单,易于理解和分析,分类效果好。
(2)缺点:大样本的计算量大,存储所有样本需较大容量,样本小时误差难控制。
2.贝叶斯决策法贝叶斯决策法是基于概率统计的基本的判别函数分类法。
(1)贝叶斯决策优点:算法简单,易于理解和分析,其基本概念被众多的先进决策算法运用,判断结果较精确。
(2)贝叶斯决策的主要的缺陷:在采用贝叶斯算法之前,要事先收集一定数量的符合实际情况的样本,这样才能较精确得出先验概率和条件概率。
且在实际生活中,决策表是很难确定的,计算所需要的损失差数,往往是根据多位专家根据实际具体问题,共同其错误的决策造成的损失的严重程度来大概确立的。
3.逆向传播神经网络其算法在应用中的缺点主要如下:(1)算法的稳定性与学效率成反比。
(2)还没找到某一明确的规则确定学效率的大小,尤其相对于非线性网络来说,学效率的选择更是一个难题。
(3)训练过程也可能陷入局部最小,可以通过变换初始值进行多次训练来决绝这个问题,但又增加了计算的负担。
(4)没有有效的方法可以确定网络层数,太多或太少都会影响系统的性能。
(5)收敛于局部极小的较早收敛问题尚未解决主要的优点如下:(6)每个神经元的运算功能十分简单。
(7)各神经元之间是并行结构互使得其具有高速处理能力。
(8)在神经网络中,知识与信息的存储表现为神经元之间分布式的物理联系,知识存储容量很大。
(9)网状结构似的整个系统的工作不会因为个别的神经元的损失而大大降低系统性能。
(10)它可以实现输入和输出数据之间的非线性映射.4.遗传算法遗传算法的优点①遗传算法解决了传统优化算法容易误入局部最优解的缺点,不用单值迭代,而是从解集合进行搜索,利于全局择优。
②遗传算法需要的参数少,容易形成通用算法程序。
③遗传算法有极强的容错能力,遗传算法的初始串集本身就带有大量与最优解甚远的信息;该算法具有收敛性,通过选择、交叉、变异操作能迅速排除与最优解相差极大的串。
④遗传算法是采用随机方法进行最优解搜索,选择体现了向最优解迫近,交叉体现了最优解的产生,变异体现了全局最优解的复盖。
力称为隐含并行性(Implicit Parallelism)。
它说明遗传算法其内在具有并行处理的特质。
遗传算法的缺点遗传算法虽然可以在多种领域都有实际应用,并且也展示了它潜力和宽广前景;遗传算法还有大量的问题需要研究,目前也还有各种不足。
①选取的值范围大,变量多时,收敛速度也随之下降,甚至有时还无法给定取值范围时。
②可找到最优解附近,但无法精确确定最优解位置。
③遗传算法的参数(n,Pm,Pc)选择还没准确的定数,还需要进一步研究其数学基础理论。
5.决策树算法优点:由于决策树具有易构造、结构简单、易于理解、分类精度高,且易于转化成SQ语句有效地存取数据库,易于算法实现等优点,决策树尤其适于数据挖掘。
描述简单,分类速度快,特别适合大规模的数据处理缺点:在学习过程中不能有很多背景知识。
是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。
决策树的这种明确性可能带来误导.⑴神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。
典型的神经网络模型主要分3大类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。
神经网络方法的缺点是"黑箱"性,人们难以理解网络的学习和决策过程。
⑵遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。
遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
Sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。
遗传算法的应用还体现在与神经网络、粗集等技术的结合上。
如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和BP算法结合训练神经网络,然后从网络提取规则等。
但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。
⑶决策树方法决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。
它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。
最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法。
它的主要问题是:ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。
针对上述问题,出现了许多较好的改进算法,女口Schlimmer和Fisher设计了ID4递增式学习算法;钟鸣,陈文伟等提出了IBLE算法等。
⑷粗集方法粗集理论是一种研究不精确、不确定知识的数学工具。
粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。
粗集处理的对象是类似二维关系表的信息表。
目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。
但粗集的数学基础是集合论,难以直接处理连续的属性。
而现实信息表中连续属性是普遍存在的。
因此连续属性的离散化是制约粗集理论实用化的难点。
现在国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大Regina大学开发的KDD-R;美国Kansas大学开发的LERS等。
⑸覆盖正例排斥反例方法它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。
首先在正例集合中任选一个种子,到反例集合中逐个比较。
与字段取值构成的选择子相容则舍去,相反则保留。
按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。
比较典型的算法有Michalski的AQ11方法、洪家荣改进的AQ15方法以及他的AE5方法。
⑹统计分析方法在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。
可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。