2014-2018年中国科学院自动研究所考博试题 模式识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国科学院自动化研究所
2014年招收攻读博士学位研究生入学统一考试试卷
科目名称:模式识别
考生须知:
1. 本试卷满分为100分,全部考试时间总计180分钟。
2. 所有答案必须写在答题纸上,写在试题纸上或草稿纸上一律无效。
1. (16分) 关于统计学习与支持向量机,请回答如下问题:(1) 给出机器学习问题的形式化表示 (4分);(2) 解释学习机器的推广能力 (4分);(3) 从几何的角度阐述线性支持向量机的原理 (4分);(4) 基于两类支持向量机,设计一个c 类(c > 2)分类训练策略 (4分)。
2. (10分) (1) 请描述径向基函数网络的结构和功能 (4分);(2) 指出径向基函数网络的参数,分析在训练一个径向基函数网络时如何调节这些参数 (6分)。
3. (10分) (1) 简述Fisher 线性判别分析的原理 (4分);(2) 针对两类分类问题,试证明在正态等方差条件下,Fisher 线性判别等价于贝叶斯判别 (6分)。
4. (10分) 假设在某个局部地区细胞识别中正常 (1ω)和异常(2ω)两类的先验分别为
1()0.85P ω=和2()0.15P ω=。现有一待识别细胞,其观察值为x ,从类条件概率密度分布曲线上查得1(|)0.2=P x ω,2(|)0.4=P x ω,请对该细胞x 进行分类,并给出计算过程。
5. (10分) 现有七个位于二维空间的样本:1(1,0)=T x ,2(0,1)=T x ,3(0,1)=-T x ,4(0,0)=T x ,5(0,2)=T x ,6(0,2)=-T x ,7(2,0)=-T x ,其中上标T 表示向量的转置。假定前三个样本属于第一类,后四个样本属于第二类,请画出最近邻法决策面。
6. (16分) 在一个模式识别问题中,有下列8个样本: 1(1,1)T =-x ,2(1,1)T =--x ,3(0,1)T =x ,4(0,1)T =-x ,5(2,1)T =x ,6(2,1)T =-x ,7(3,1)T =x ,8(3,1)T =-x ,其中上标T 表示向量的转置。请回答如下问题:(1) 如果不知道这8个样本的类别标签,请采用K-L 变换,计算其特征值和特征向量(10分);(2) 对上述8个样本,假设前4个样本属于第一类,后4个样本属于第二类,请给出一种特征选择方法,并写出相应的计算过程 (6分)。
7. (16分) (1) 给定m 维空间中的n 个样本,请给出C -均值聚类算法的计算步骤(包含算法输入和输出) (8分);(2) 针对C -均值聚类算法,指出影响聚类结果的因素,并给出相应的改进措施 (8分)。
8. (12分) 某单位有n 位职员,现从每位职员采集到m (m >10)张正面人脸图像(可能因姿态、表情、光照条件的略微不同而不同)。每张人脸图像为200(高度) ⨯160(宽度)像素大小的灰度图像。现在拟设计一个人脸识别系统,请回答如下问题:(1) 描述拟采用的特征提取方法及计算步骤 (4分);(2) 描述拟采用的分类器构造方法及计算步骤 (4分);(3) 请从特征提取和分类器构造两方面对你所采用的方法进行评价(即解释采用它们的原因) (4分)。
科目名称:模式识别 第1页 共1页
中国科学院自动化研究所
2015年招收攻读博士学位研究生入学统一考试试卷
科目名称:模式识别
考生须知:
1. 本试卷满分为100分,全部考试时间总计180分钟。
2. 所有答案必须写在答题纸上,写在试题纸上或草稿纸上一律无效。
1. (5分) 关于ROC 曲线。(1)“ROC ”代表三个英文单词的首字母,请顺序写出这三个单词的全称 (3分);(2)针对两类分类问题,请描述“ROC ”曲线的绘制步骤 (2分)。
2. (15分) 关于线性分类器。(1)请给出Fisher 线性判别分析的主要计算步骤和分类决策规则(10分);(2)请给出线性不可分情形下支持向量机学习模型 (5分)。
3. (8 分) 关于Boosting 方法。假定有n 个m 维空间中的训练样本12{,,,}m n x x x R ,进一步假定这些样本属于两个不同的类别。(1) 基于这些样本,请简述采用Boosting 方法学习一个两类分类器的步骤,并指出其中拟采用的弱分类器 (4分);(2) 基于两类Boosting 方法,请设计一个针对多类分类问题的分类器学习框架 (4分)。
4. (8分) 关于聚类。 (1) 请给出ISODATA 方法的主要计算步骤 (4分);(2)请指出ISODATA 方法和C 均值算法的不同点 (4分)。
5. (8分) 关于主成分分析。(1)请简述主成分分析方法的原理 (4分);(2)采用核技巧,可以将主成分分析方法发展为核主成分分析方法,请结合核主成分分析方法解释核技巧的工作原理 (4分)。
6. (14分) 关于神经网络。(1)针对多层前馈神经网络,请给出反向传播算法的工作原理和训练步骤 (10分);(2)请分析“在前馈神经网络中,隐含层数越多对分类预测可能产生的影响” (4分)。
(未完待续) 科目名称:模式识别 第1页 共2页
7. (10分) 关于特征选择。给定n 个m 维空间中的训练样本12{,,
,}m n x x x R ⊂,且每个样本的类别标签是已知的。请用迹比值判据4()()
b w tr S J tr S =设计一个完整的特征选择算法,其中()tr ⋅表示矩阵求迹运算,b S 表示类间散度矩阵,w S 表示总类内散度矩阵。
8. (10分) 现有一个二维空间中的两类分类问题。记两个类分别为1ω和2ω。假定1ω和2
ω出现的先验概率均相等,且1ω和2ω的类条件概率密度均为正态分布。其中,1ω的类条
件概率密度的均值为1[1,0]T
μ=-,协方差矩阵为110.50.51⎛⎫∑= ⎪⎝⎭;2ω的类条件概率密度的均值为2[1,0]T μ=,协方差矩阵为210.50.5
1-⎛⎫∑=
⎪-⎝⎭,其中上标T 表示向量转置。请写出负对数似然比决策规则。 9. (14分) 现有9个训练样本,分别属于三个不同的类别。第一类的样本点集为{[1, 0]T , [2,
0]T , [1, 1]T },第二类的样本点集为{[0, 1]T , [−1, 0]T , [−1, 1]T },第三类的样本点集为{[0,−1]T , [−1,−1]T , [0,−2]T },其中上标T 表示向量转置。假定类先验概率均相等,请计算类间散度矩阵和总类内散度矩阵。
10. (8分) 关于非线性特征提取。(1)请描述IsoMap (isometric feature mapping)方法的主要
计算步骤 (3分);(2)现有一个房间,其四周墙壁均为白色,且室内光照明亮均匀。在该房间的一张白色的桌子上平放着一把彩色茶壶,茶壶所有表面均绘有不同的花纹。另外,室内有一个照相机可沿一个圆移动,该圆所在的平面与桌面平行。茶壶的质心与该圆的圆心重叠。在照相机运动的过程中,照相机的焦距等成像参数保持不变,但其拍摄方向始终对准茶壶,且能将茶壶定位于图像中央,并使整个茶壶大致占满整个图像。假定照相机沿该圆均速运动一周一共连续拍摄到400张不同的图像。现将IsoMap 方法应用于这些图像数据,并假定最终输出一个二维特征提取结果。如果将这400个二维特征点在二维笛卡尔坐标系统中进行绘制,请分析可能呈现出的形状,并给出理由 (5分)。
科目名称:模式识别 第2页 共2页