主成分分析是处理降维的一种方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

主成分分析是处理降维的一种方法。

将多个指标化为少数相互无关的综合指标的统计方法叫做主成分分析。

主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新信息,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。

因子分析是主成分分析的推广和发展,它是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。

因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。

典型相关分析的基本思想:结合主成分分析的思想,自然是考虑X 的综合指标(X 的线性函数)与Y 的综合指标之间的相关性程度来刻画X 与Y 的相关性,即把两组变量的相关,变为两个新变量(线性函数)之间的相关来讨论,同时又尽量保留原来变量的信息,或者说,找X 的线性函数和找Y 的线性函数,使这两个线性函数具有最大的相关性。(称这种相关为典型相关,称形成的两个线性函数即两个新的变量为典型变量。)继而,还可以分别找X 与Y 的第二对线性函数。是其与第一对典型变量不相关,而这两个线性函数之间又具有最大的相关性。如此继续进行下去,直到两组变量X 与Y 之间的相关性被提取完毕为止。

判别分析就是解决分类问题,模式识别的分类问题就是根据待识别对象的特征向量值及其它约束条件将其分到某个类别中去。统计判别分析理论是模式分类问题的基本理论之一,它对模式分析和分类器的设计有着实际的指导意义。

距离判别法的基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。

距离判别法对各类(或总体)的分布,并无特定的要求。

系统聚类法的基本思想:先将每个研究对象(样品或指标)各自看成一类,按某种顺序分别称作第1,第2,…第h 类(如果对象是样品,则h=n ;如果对象是指标,则h=p );然后根据对象间的相似度量,将h 类中最相似的两类合并,组成一个新类,这样得到h-1类,再在这h-1类中找出最相似的两类,得到h-2类,如此下去,直至将所有的对象并成一个大类为止。

系统聚类法优点:既可以对观测量(样品)也可对变量进行聚类,既可以是连续变量也可以是分类变量,提供的距离计算方法和结果显示方法也很丰富。

系统聚类法基本步骤

初始化过程:(1)样本集:{}n x x x X ,,,21K =(2)选择样本间距离的定义及类间距离的定义;

(3)构造n 个类,每类只含有一个样本;{}{}{}n n x C x C x C ===,,,2211K

(4)计算n 个样本两两之间的距离{}ij d ,得到距离矩阵,记作()()()n n ij d D ⨯=00;

归并类过程:(5)合并距离最近的两类为一个新类,称作第n+1类,并取消刚合并的那两类,这样得到n-1类;(6)计算新类与剩余各类的距离,其他各类间距离不变,得到降一阶的新距离矩阵

()()()

()()1111-⨯-=n n ij d D 。若类的个数等于1,则转到步骤7;否则,回到步骤5. 决策过程:(7)画出聚类图;(8)决定类的个数和类。

正交试验的的极差分析法的一般步骤:1、定指标,确定因素,选水平;2、选用适当的正交表,表头设计,确定实验方案;3、严格按条件做实验,并记录实验结果。4、计算各列的统一水平的数据和与极差;5、按极差大小排出因素的主次;6、选取较优生产条件;7、进行验证性试验,做进

一步分析。

主成分分析是处理降维的一种方法。

将多个指标化为少数相互无关的综合指标的统计方法叫做主成分分析。

主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新信息,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。

因子分析是主成分分析的推广和发展,它是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。

因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。

典型相关分析的基本思想:结合主成分分析的思想,自然是考虑X 的综合指标(X 的线性函数)与Y 的综合指标之间的相关性程度来刻画X 与Y 的相关性,即把两组变量的相关,变为两个新变量(线性函数)之间的相关来讨论,同时又尽量保留原来变量的信息,或者说,找X 的线性函数和找Y 的线性函数,使这两个线性函数具有最大的相关性。(称这种相关为典型相关,称形成的两个线性函数即两个新的变量为典型变量。)继而,还可以分别找X 与Y 的第二对线性函数。是其与第一对典型变量不相关,而这两个线性函数之间又具有最大的相关性。如此继续进行下去,直到两组变量X 与Y 之间的相关性被提取完毕为止。

判别分析就是解决分类问题,模式识别的分类问题就是根据待识别对象的特征向量值及其它约束条件将其分到某个类别中去。统计判别分析理论是模式分类问题的基本理论之一,它对模式分析和分类器的设计有着实际的指导意义。

距离判别法的基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。

距离判别法对各类(或总体)的分布,并无特定的要求。

系统聚类法的基本思想:先将每个研究对象(样品或指标)各自看成一类,按某种顺序分别称作第1,第2,…第h 类(如果对象是样品,则h=n ;如果对象是指标,则h=p );然后根据对象间的相似度量,将h 类中最相似的两类合并,组成一个新类,这样得到h-1类,再在这h-1类中找出最相似的两类,得到h-2类,如此下去,直至将所有的对象并成一个大类为止。

系统聚类法优点:既可以对观测量(样品)也可对变量进行聚类,既可以是连续变量也可以是分类变量,提供的距离计算方法和结果显示方法也很丰富。

系统聚类法基本步骤

初始化过程:(1)样本集:{}n x x x X ,,,21K =(2)选择样本间距离的定义及类间距离的定义;

(3)构造n 个类,每类只含有一个样本;{}{}{}n n x C x C x C ===,,,2211K

(4)计算n 个样本两两之间的距离{}ij d ,得到距离矩阵,记作()()()n n ij d D ⨯=00;

归并类过程:(5)合并距离最近的两类为一个新类,称作第n+1类,并取消刚合并的那两类,这样得到n-1类;(6)计算新类与剩余各类的距离,其他各类间距离不变,得到降一阶的新距离矩阵

()()()

()()1111-⨯-=n n ij d D 。若类的个数等于1,则转到步骤7;否则,回到步骤5.

相关文档
最新文档