模式识别_习题答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、PCA和LDA的区别?
PCA是一种无监督的映射方法,LDA是一种有监督的映射方法。PCA只是将整组数据映射到最方便表示这组数据的坐标轴上,映射时没有利用任何数据内部的分类信息。因此,虽然做了PCA后,整组数据在表示上更加方便(降低了维数并将信息损失降到了最低),但在分类上也许会变得更加困难;LDA在增加了分类信息之后,将输入映射到了另外一个坐标轴上,有了这样一个映射,数据之间就变得更易区分了(在低纬上就可以区分,减少了很大的运算量),它的目标是使得类别内的点距离越近越好,类别间的点越远越好。
2、最大似然估计和贝叶斯方法的区别?p(x|X)是概率密度函数,X是给定的训练样本的集合,在哪种情况下,贝叶斯估计接近最大似然估计?
最大似然估计把待估的参数看做是确定性的量,只是其取值未知。利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值(模型已知,参数未知)。贝叶斯估计则是把待估计的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程,把先验概率密度转化为后验概率密度,利用样本的信息修正了对参数的初始估计值。
当训练样本数量趋于无穷的时候,贝叶斯方法将接近最大似然估计。如果有非常多的训练样本,使得p(x|X)形成一个非常显著的尖峰,而先验概率p(x)又是均匀分布,此时两者的本质是相同的。
3、为什么模拟退火能够逃脱局部极小值?
在解空间内随机搜索,遇到较优解就接受,遇到较差解就按一定的概率决定是否接受,这个概率随时间的变化而降低。实际上模拟退火算法也是贪心算法,只不过它在这个基础上增加了随机因素。这个随机因素就是:以一定的概率来接受一个比单前解要差的解。通过这个随机因素使得算法有可能跳出这个局部最优解。
4、最小错误率和最小贝叶斯风险之间的关系?
基于最小风险的贝叶斯决策就是基于最小错误率的贝叶斯决策,换言之,可以把基于最小错误率决策看做是基于最小风险决策的一个特例,基于最小风险决策本质上就是对基于最小错误率公式的加权处理。
5、SOM的主要功能是什么?怎么实现的?是winner-all-take-all 策略吗?
SOM是一种可以用于聚类的神经网络模型。
自组织映射(SOM)或自组织特征映射(SOFM)是一种使用非监督式学习来产生训练样本的输入空间的一个低维(通常是二维)离散化的表示的人工神经网络(ANN)。自组织映射与其他人工神经网络的不同之处在于它使用一个邻近函数来保持输入控件的拓扑性质。SOM网络中, 某个输出结点能对某一类模式作出特别的反应以代表该模式类, 输出层上相邻的结点能对实际模式分布中相近的模式类作出特别的反映,当某类数据模式输入时, 对某一输出结点产生最大刺激( 获胜结点) , 同时对获胜结点周围的一些结点产生较大刺激。在训练的过程中, 不断对获胜结点的连接权值作调整, 同时对获胜结点的邻域结点的连接权值作调整; 随着训练的进行, 这个邻域范围不断缩小, 直到最后, 只对获胜结点进行细微的连接权值调整。
不是winner-all-take-all 策略。获胜结点产生刺激,其周围的结点也会产生一定程度的兴奋。
6、期望算法需要哪两步?请列出可能的公式并做必要的解释。
E-Step和M-Step。E-Step叫做期望化步骤,M-Step为最大化步骤。
整体算法的步骤如下所示:
1、初始化分布参数。
2、(E-Step)计算期望E,利用对隐藏变量的现有估计值,计算其最大似然估计值,以此实现期望化的过程。
3、(M-Step)最大化在E-步骤上的最大似然估计值来计算参数的值
4、重复2,3步骤直到收敛。
F-step,根据之前的θ值求数据的期望
M-step:求θ使期望最大化,作为下一次E-step的θ值。
7、在核密度估计(kernel density estimation)中,核独立就代表特征独立吗?朴素贝叶斯分类器的基本假设是什么?
不能。(?????)
The Naïve Bayes classifier makes the assumption that the features are class-conditionally independent。
8、假设数据维度(dimensionality)比给定的训练样本的个数多很多,请用PCA使计算复杂度依赖于数据的数量,而不是依赖于数据的维度。
1)计算协方差矩阵,得到协方差矩阵
2)求协方差矩阵的特征值和特征向量
3)选择主成分,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
4)将样本点投影到选取的特征向量上。
9、假设一个数据集(covariance matrix)的协方差矩阵是
请回答下列问题:
1)这个协方差矩阵的每个元素有什么意义?
协方差矩阵的每个元素是各个向量元素之间的协方差,数据集是二维的,四个元素从左到右从上到下分别是向量的第一个和第一个元素之间的协方差,12,21,22
2)计算这数据集两个主成分(principal components)
矩阵:AH=λA,H是特征向量
矩阵的特征方程的表达式为|λE-A|=0
(λ-1)(λ-1)-1/4=0 λ=3/2或者1/2
3)为什么PCA能够移除特征之间的相关性?
PCA在降维的时候要尽量保存数据集中的有效信息,映射的方法是基变换,数据集在某个基上的投影值(也是在这个基上的坐标值)越分散, 方差越大, 这个基保留的信息也就越多。信息量保存能力最大的基向量一定是就是数据集的协方差矩阵的特征向量, 并且这个特征向量保存的信息量就是它对应的特征值。
10、一个K-class分类模型的先验概率是p(ωk)=πk,并且类概率密度是p(x|ωk)。给定一个训练集{x n,t n} n=1,2,3……N,t n is a binary target vector of length k that uses the 1-of-k coding scheme,so that is x n is from class ωk,t nk=1,and t nj=0,for all other j,j≠k。假设数据点的描绘是独立于这个模型的,用最大似然估计在先验概率是πk=N k/N的情况下求解,N k是数据点的数量由ωk确定。
解:
11、对于下列模式:
{(0,0)T,(1,1)T,(-1,-1)T,(2,2)T,(-2,-2)T,(1,-1)T,(-1,1)T},使用K-L转换(或者说就是PCA)降低特征维数至一维,并给出详细的计算步骤。
Step1:求x和y的平均值。然后对于所有的样例,都减去对应的均值。
X的均值是0,y的均值是0
X:0 1 -1 2 -2 1 -1
Y:0 1 -1 2 -2 -1 1
Step2:求协方差矩阵(应该除以n-1,不是n,所以错的)