独立成分分析技术研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(本科毕业设计论文)
本科毕业设计论文
题目独立成分分析技术研究
系别
专业
班级
学生姓名
学号
指导教师
报告日期
毕业设计任务书
一、题目
独立成分分析技术研究
二、指导思想和目的要求
1、利用已有的专业知识,培养学生解决实际工程问题的能力;
2、锻炼学生的科研工作能力和培养学生的团结合作攻关能力;
三、主要技术指标
1. 研究独立成分分析算法;
2. 完成演示程序
四、进度和要求
第01周----第02周:英文翻译;
第03周----第04周:学习主成分分析与独立成分分析技术;
第05周----第10周:研究独立成分分析算法;
第11周----第16周:设计演示程序;
第17周----第18周:撰写毕业设计论文,论文答辩;
五、主要参考书及参考资料
[1]《Independent Component Analysis》 Aapo Hyvarinen, Juha Karhunen, Erkki Oja , Wiley-Interscience; 1 edition, 2001
[2]《Independent Component Analysis: A Tutorial Introduction 》 James V. Stone, A Bradford Book , 2004
[3]《Bayesian Reasoning and Machine Learning Hardcover》 David Barber Cambridge University Press 2012
学生指导教师系主任 ___________
摘要
主成分分析(Principal Components Analysis,PCA)是一种分析、简化数据集的技术。
主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。
独立成分分析(I ndependent Component Analysis ,简称ICA)或独立分量分析是一种利用统计原理进行计算的方法。
它是一个线性变换,这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。
目前比较流行的ICA算法又Infomax算法(信息最大化)、FastICA算法(定点算法,Fixed-point、快速ICA算法),方法分类的依据主要是求取分离矩阵W的方法不同。
计算最大似然估计时,假设了与之间是独立的,然而对于语音信号或者其他具有时间连续依赖特性(比如温度)上,这个假设不能成立。
但是在数据足够多时,假设独立对效果影响不大,同时如果事先打乱样例,并运行随机梯度上升算法,那么能够加快收敛速度。
在诸多ICA算法中,固定点算法(也称FastlCA)以其收敛速度快、分离效果好被广泛应用于信号处理领域。
该算法能很好地从观测信号中估计出相互统计独立的、被未知因素混合的原始信号。
本论文对,独立成分分析的一个改进的梯度学习算法进行了分析,简称正交信息极大化算法(OrthogonalIn fomax,O rth-Infomax)这个算法综合了Infomax算法和Fixed-Point(不定点)算法的优点。
从语音信号和fMRI信号两方面来比较这三个算法。
就语音信号的分离准确度来说,Orth-Infomax算法具有最好的分离精度。
对于真实的fMRI数据来说,Orth-Infomax算法具有最佳的估计脑内激活的时间动力学准确性。
相应的做出了语音数据的实验结果和fMRI数据的实验结果。
ICA的主要的应用是特征提取、盲源信号分离、生理学数据分析、语音信号处理、图像处理及人脸识别等。
关键词:主成分分析,独立成分分析,最大似然估计,FastICA算法,ICA 的应用
ABSTRACT
Principal component Analysis, Principal Components Analysis, PCA) is a kind of Analysis, simplify the technology of data sets.Principal component analysis is often used to reduce the dimensions of the data sets, while keeping the characteristic of the largest contribution to the variance of a data set.This is by retaining low order principal component, ignore higher-order principal component.Principal component analysis (pca) is a statistical method of dimension reduction, it is by using a orthogonal transformation, the original random vector that are relevant to the component into its component is not related to the new random vector, this appears to be the original random vector on the algebra of covariance matrix transformation into a diagonal matrix, on the geometry of the original coordinate transformation into a new orthogonal coordinate system, make it points to sample points to spread the most open p orthogonal direction, and then to multidimensional variable system dimension, make it to a high precision system is transformed into low dimensional variables, then through constructing the proper value function, further the low-dimensional systems into one dimension.
The principle of principal component analysis is to try to into a new set of the original variables were independent of each other a few variables, at the same time, according to the actual need to take out a few less the sum of the variables as much as possible to reflect the original statistical methods of information called principal component analysis (or called principal component analysis, also is a kind of mathematical processing dimension reduction method.
Independent Component Analysis (Independent Component Analysis, ICA) and Independent Component Analysis is a method of using statistics principle to compute.It is a linear transformation, the transformation or the data signal is separated into independent non-gaussian statistics linear combination of the signal source.At present more popular ICA algorithm and Infomax algorithm (information maximization), FastICA algorithm (fixed-point algorithm, Fixed - point, fast ICA algorithm), classification method is mainly based on different methods to calculate the
separation matrix W.
To calculate the maximum likelihood estimation, hypothesis and between is independent, yet for speech signal or other time continuous dependence characteristics (such as temperature), the hypothesis cannot be established.But in enough data, assuming independent influence on the effect is not big, if disrupted the sample in advance at the same time, rising and run the stochastic gradient algorithm, then can accelerate the convergence speed.
This paper analyses the FastICA algorithm, independent component analysis of an improved learning algorithm of gradient, hereinafter referred to as orthogonal information maximization algorithm (OrthogonalIn fomax, O RTH - Infomax) this algorithm combines Infomax algorithm and the advantages of Fixed - Point algorithm.From two aspects of speech signal and the fMRI signal to compare the three algorithms..In terms of speech signal separation accuracy, Orth - Infomax separation algorithm has the best accuracy.For real fMRI data, Orth - Infomax algorithm has the best dynamic accuracy estimate brain activation time.Corresponding to the voice and data of the experimental results and the experimental results of fMRI data.
In many ICA algorithm, fixed point algorithm (also called FastlCA) for its quick convergence rate, good separation effect is widely used in signal processing field.The algorithm can estimate the statistically independent of each other from the observed signals, mixed by unknown factors, the original signal.
The ICA is the main application of the feature extraction, physiological data signal blind source separation, analysis, speech signal processing, image processing, face recognition, etc.
Keywords: principal component analysis, independent component analysis, the maximum likelihood estimation, FastICA algorithm, the application of ICA
目录
第一章绪论 (1)
1.1独立成分分析的概述 (1)
第二章主成分分析法 (3)
2.1主成分分析定义与概述 (3)
2.2主成分分析的发展史 (4)
2.3主成分分析基本思想 (6)
2.4主成分分析法的基本原理 (7)
2.5主成分分析法的计算步骤 (8)
2.6主成分分析法的优缺点 (9)
2.6.1优点 (9)
2.6.2缺点 (9)
第三章独立成分分析技术 (11)
3.1独立成分分析定义及背景 (11)
3.2 ICA和投影法 (12)
3.3 ICA的分类 (12)
3.4 独立成分分析基本原理与发展 (13)
3.4.1基本模型 (13)
3.4.2 立性测度为依据,确定目标函数 (13)
第四章独立成分分析算法 (15)
4.1独立成分分析算法与空间数据分析 (15)
4.2密度函数和线性变换 (16)
4.3 最大似然估计法 (16)
4.4 FastICA算法 (18)
4.4.1FastICA简介 (18)
4.4.2 FastICA算法的优点 (18)
4.4.3 FastICA算法的说明 (19)
4.5实验结果 (20)
4.5.1 语音数据的实验结果 (20)
4.5.2fMRI数据的实验结果 (21)
第五章 ICA的应用 (24)
5.1 在脑磁图(MEG)中分离非自然号 (24)
5.2 在金融数据中找到隐藏的因素 (24)
5.3自然图像中减少噪声 (24)
5.4人脸识别 (25)
5.5图像分离 (26)
5.6语音信号处理 (28)
第六章全文总结 (30)
参考文献 (31)
致谢 (33)
毕业设计小结 (34)
第一章绪论
1.1独立成分分析的概述
独立成分分析(I ndependent Component Analysis ,简称ICA)的思想和方法最早源于上世纪八十年代几个法国学者的研究工作,尽管当时他们并没有命名其为independent component analysis。
在1986年举行的神经网络计算会议上,法国学者Herault和Jutten提出了一个基于神经网络模型和Hebb学习准则的方法,来解决盲源分离问题(blind source separation,简称BS)。
他们的工作开创了信号处理领域的新纪元,从此盲源分离问题得到了各国学者的广泛重视。
但在当时,ICA仅为法国学者所研究在国际上的影响十分有限。
八十年代国际神经网络会议上,当时少数有关ICA的文章被埋没于back-propagation网络、Hopfield网络、Kohonen自组织网络的研究热潮中,并没有引起各国学者足够的重视。
进入到上世纪九十年代初期,某些学者开始了这方面的研究,他们扩展了八十年代有关盲分离问题的一些工作。
其中,学者Cichocki和Unbehauen提出了当时较为流行的ICA算法,芬兰学者Oja,Karhunen等提出了“非线性PCA”方法。
然而,直到九十年代中期,ICA仍然只得到少数学者的关注,主要原因是这些学者提出的算法所能解决的问题是相当有限的。
事实上,解决盲源分离问愚是一个非常困难的任务,因为我们不知道源信号的任何信息。
在Herault和Jutten提出的算法中,只作了两个假设:一个是假设源信号是相互统计独立的,另一是假设己知源信号的统计分布特征。
如果假设源信号是高斯分布的,则很容易看出这个育源分离问题没有一般的解,因为高斯分布的任何线性混合仍然是高斯的。
用Herault-Jutten的网络模型解决盲源分离问题,需要假设源信号是亚高斯信号,也就是说源信号的峰度值要小于高斯信号的峰度值。
直到1994年,法国学者COMOU为Herault和Jutten提出的独立成分分析问题给出了一个较为清晰的数学上的框架,从此independent component analysis成为
正式用语。
到日前为止,标准的独立成分分析算法己经较为成熟,国际上使用最为广的是信息极大化算法、Fixed-Point算法(FastICA算法) 、扩展的信息极大化算法(ExtICA)和EASI算法等。
标准的独立成分分析的数学模型较为简单,不同的独立性判据所导致的算法在形式上也是基本相似的。
形势虽然简单,但到目前为止,以实际的生物医学信号处理为例,研究者大量使用的主要还是标准的ICA算法。
主要因为它发展的最为成熟,计算稳定,较少有数值问题,并且网上有相关作者编制的通用软件包可用于研究下载。
在真实数据的处理过程中,可尽量将所面临的问题转化为标准的ICA问题,然后选用有效的ICA算法来解决。
它因为真实数据往往规模比较大,选择在实算中收敛速度快,计算稳定的算法是相当重要的。
ICA最初所希望解决的鸡尾酒会问题是极为复杂和困难的,实际的盲源分离问题又是方方面面,需将各种实际情况转化为相应的数学模型来解决。
现在人们重点研究的是扩展的独立成分分析,其模型是标准的ICA模型的扩展和补充,来进一步满足实际需要,比如具有噪声的独立成分分析,稀疏和超完备表示问题,具有时间结构的独立成分分析问题,非线性的独立成分分析和非平稳信号的独立成分分析等。
独立成分分析己经被广泛应用于实际数据的处理中,诸如图像处理、语音信号处理、生物医学信号处理、模式识别、数据挖掘、通讯等。
第二章主成分分析法
2.1主成分分析定义与概述
在统计分析中,主成分分析(Principal components analysis,PCA)是一种分析、简化数据集的技术。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
主成分分析由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。
其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分与它们的权值。
主成分分析(PCA)试图用一组维数为数不多的特征去尽可能精确地表示样本的特征,它通常采用训练样本总体协方差矩阵的特征向量系作为展开基(即K-L 坐标轴),而那些对应若干个最大特征值的特征向量则被称为主分量或主成分(Principal Components)。
模式样本在这些主分量上线性投影后,所得的投影系数即为主分量特征。
主分量分析的具有两大优点:1、消除了模式样本之间的相关性;2、实现了模式样本的维数压缩。
K、L变换能将高维的模式样本压缩为更易于处理的低维样本,换而言之,主分量分析给出了高维数据的一种简约的表示。
由于以上优点,主分量分析被广泛地用于模式识别、数据压缩等领域。
Kirby和Sirovich最先将PCA应用于人脸识别,后来,Turk和Pentland在此基础上提出了著名的Eigenfaces方法。
Yangt等针对Eigenfaces方法中存在的高维小样本问题提出了一种直接基于图像矩阵的二维主分量分析(2DPCA)方法,该方法在对图像样本进行特征提取时,直接利用图像矩阵本身计算图像的总体协方差矩阵,然后取它的前d个最大特征值所对应的标准正交的特征向量作为投影轴。
由于2DPCA能够直接对原始图像矩阵进行投影得到所需的鉴别特征,因此避免了对高维的图像向量进行计算,实验证明其不仅识别率较高,而且特征抽取速度也提升了十几倍。
2.2主成分分析的发展史
以分析化学发展史为例。
分析化学是化学的一个重要分支,它主要研究物质中有哪些元素或基团(定性分析);每种成分的数量或物质纯度如何(定量分析);原子如何联结成分子,以及在空间如何排列等等。
分析化学以化学基本理论和实验技术为基础,并吸收物理、生物、统计、电子计算机、自动化等方面的知识以充实本身的内容,从而解决科学、技术所提出的各种分析问题。
分析化学这一名称虽创自玻意耳,但其实践运用与化学工艺的历史同样古老。
古代冶炼、酿造等工艺的高度发展,都是与鉴定、分析、制作过程的控制等手段密切联系在一起的。
在东、西方兴起的炼丹术、炼金术等都可视为分析化学的前驱。
公元前3000年,埃及人已经掌握了一些称量的技术。
巴比伦的祭司所保管的石制标准砝码(约公元前2600)尚存于世。
不过等臂天平用于化学分析,当始于中世纪的烤钵试金法中。
古代认识的元素,非金属有碳和硫,金属中有铜、银、金、铁、铅、锡和汞。
公元前四世纪已使用试金石以鉴定金的成色,公元前三世纪,阿基米德在解决叙拉古王喜朗二世的金冕的纯度问题时,即利用了金、银密度之差,这是无伤损分析的先驱。
公元60年左右,老普林尼将五倍子浸液涂在莎草纸上,用以检出硫酸铜的掺杂物铁,这是最早使用的有机试剂,也是最早的试纸。
迟至1751年,埃勒尔•冯•布罗克豪森用同一方法检出血渣(经灰化)中的含铁量。
火试金法是一种古老的分析方法。
远在公元前13世纪,巴比伦王致书埃及法老阿门菲斯四世称:“陛下送来之金经入炉后,重量减轻……”这说明3000多年前人们已知道“真金不怕火炼”这一事实。
法国菲利普六世曾规定黄金检验的步骤,其中提出对所使用天平的构造要求和使用方法,如天平不应置于受风吹或寒冷之处,使用者的呼吸不得影响天平的称量等。
18世纪的瑞典化学家贝格曼可称为无机定性、定量分析的奠基人。
他最先提出金属元素除金属态外,也可以其他形式离析和称量,特别是以水中难溶的形式,这是重量分析中湿法的起源。
德国化学家克拉普罗特不仅改进了重量分析的步骤,还设计了多种非金属元素测定步骤。
他准确地测定了近200种矿物的成分及各种工业产品如玻璃、非铁合金等的组分。
18世纪分析化学的代表人物首推贝采利乌斯。
他引入了一些新试剂和一些新技巧,并使用无灰滤纸、低灰分滤纸和洗涤瓶。
他是第一位把原子量测得比较
精确的化学家。
除无机物外,他还测定过有机物中元素的百分数。
他对吹管分析尤为重视,即将少许样品置于炭块凹处,用氧化或还原焰加热,以观察其变化,从而获得有关样品的定性知识。
此法一直沿用至19世纪,其优点是迅速、所需样品量少,又可用于野外勘探和普查矿产资源等。
19世纪分析化学的杰出人物之一是弗雷泽纽斯,他创立一所分析化学专业学校(此校至今依然存在);并于1862年创办德文的《分析化学》杂志,由其后人继续任主编至今。
他编写的《定性分析》、《定量分析》两书曾译为多种文字,包括晚清时代出版的中译本,分别定名为《化学考质》和《化学求数》。
他将定性分析的阳离子硫化氢系统修订为目前的五组,还注意到酸碱度对金属硫化物沉淀的影响。
在容量分析中,他提出用二氯化锡滴定三价铁至黄色消失。
1663年玻意耳报道了用植物色素作酸碱指示剂,这是容量分析的先驱。
但真正的容量分析应归功于法国盖•吕萨克。
1824年他发表漂白粉中有效氯的测定,用磺化靛青作指示剂。
随后他用硫酸滴定草木灰,又用氯化钠滴定硝酸银。
这三项工作分别代表氧化还原滴定法、酸碱滴定法和沉淀滴定法。
络合滴定法创自李比希,他用银滴定氰离子。
另一位对容量分析作出卓越贡献的是德国莫尔,他设计的可盛强碱溶液的滴定管至今仍在沿用。
他推荐草酸作碱量法的基准物质,硫酸亚铁铵(也称莫尔盐)作氧化还原滴定法的基准物质。
最早的微量分析是化学显微术,即在显微镜下观察样品或反应物的晶态、光学性质、颗粒尺寸和圆球直径等。
17世纪中叶胡克从事显微镜术的研究,并于1665年出版《显微图谱》。
法国药剂师德卡罗齐耶在1784年用显微镜以氯铂酸盐形式区别钾、钠。
德意志化学家马格拉夫在1747年用显微镜证实蔗糖和甜菜糖实为同一物质;在1756年用显微镜检验铂族金属。
1891年,莱尔曼提出热显微术,即在显微镜下观察晶体遇热时的变化。
科夫勒及其夫人设计了两种显微镜加热台,便于研究药物及有机化合物的鉴定。
后来又发展到电子显微镜,分辨率可达1埃。
不用显微镜的最早的微量分析者应推德国德贝赖纳。
他从事湿法微量分析,还有吹管法和火焰反应,并发表了《微量化学实验技术》一书。
近代微量分析奠基人是埃米希,他设计和改进微量化学天平,使其灵敏度达到微量化学分析的要求;改进和提出新的操作方法,实现毫克级无机样品的测定,并证实纳克级样品测定的精确度不亚于毫克级测定。
有机微量定量分析奠基人是普雷格尔,他曾从胆汁中离析出一种降解产物,其量尚不足作一
次常量碳氢分析。
在听了埃米希于1909年所作有关微量定量分析的讲演并参观其实验室后,他决意将常量燃烧法改为微量法(样品数毫克),并获得成功;1917年出版《有机微量定量分析》一书,并在1923年获诺贝尔化学奖。
德国化学家龙格在1850年将染料混合液滴在吸墨纸上使之分离,更早些时候他曾用染有淀粉和碘化钾溶液的滤纸或花布块作过漂白液的点滴试验。
他又用浸过硫酸铁和铜溶液的纸,在其中部滴加黄血盐,等每滴吸入后再加第二滴,因此获得自行产生的美丽图案。
1861年出现舍恩拜因的毛细管分析,他将滤纸条浸入含数种无机盐的水中,水携带盐类沿纸条上升,以水升得最高,其他离子依其迁移率而分离成为连接的带。
这与纸层析极为相近。
他的学生研究于滤纸上分离有机化合物获得成功,能明显而完全分离有机染料。
20世纪60年代,魏斯提出环炉技术。
仅用微克量样品置滤纸中,继用溶剂淋洗,而后在滤纸外沿加热以蒸发溶剂,遂分离为若干同心环。
如离子无色可喷以灵敏的显色剂或荧光剂,既能检出,又能得半定量结果。
色谱法也称层析法。
1906年俄国茨维特将绿叶提取汁加在碳酸钙沉淀柱顶部,继用纯溶剂淋洗,从而分离出叶绿素。
此项研究发表在德国《植物学》杂志上,但未能引起人们注意。
直到1931年德国的库恩和莱德尔再次发现本法并显示其效能,人们才从文献中追溯到茨维特的研究和更早的有关研究,如1850年韦曾利用土壤柱进行分离;1893年里德用高岭土柱分离无机盐和有机盐等等。
气体吸附层析始于20世纪30年代的舒夫坦和尤肯。
40年代,德国黑塞利用气体吸附以分离挥发性有机酸。
英国格卢考夫也用同一原理在1946年分离空气中的氢和氖,并在1951年制成气相色谱仪。
第一台现代气相色谱仪研制成功应归功于克里默。
气体分配层析法根据液液分配原理,由英国马丁和辛格于1941年提出。
并因此而获得1952年诺贝尔化学奖。
戈莱提出用长毛细管柱,是另一创新。
色谱-质谱联用法中将色谱法所得之淋出流体移入质谱仪,可使复杂的有机混合物在数小时内得到分离和鉴定,是最有效的分析方法之一。
2.3主成分分析基本思想
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相
关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。
上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。
对作正交变换,令其中为正交阵的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。
各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。
由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。
例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。
经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。
2.4主成分分析法的基本原理
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机
向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。
主成分分析是设法将原来众多具有一定相关性(比如P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。
最经典的做法就是用F 1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Va (r F 1)越大,表示F 1包含的信息越多。
因此在所有的线性组合中选取的F 1应该是方差最大的,故称F 1为第一主成分。
如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F 2即选第二个线性组合,为了有效地反映原来信息,F 1已有的信息就不需要再出现再F 2中,用数学语言表达就是要求0),(21=F F Cov ,则称F 2为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分。
2.5主成分分析法的计算步骤
1)原始指标数据的标准化采集p 维随机向量,),...,,(21T p x x x X =n 个样品
,,...,2,1,,...,,21n i x x x X T ip i i i ==)(
n >p ,构造样本阵,对样本阵元进行如下标准化变换:
p j n i s x x Z j j ij ...,2,1;...,2,1,ij ==-= (2-1) 其中1)(,`
221--==∑∑==n x x s n x x n i j ij j n i ij
j ,得标准化阵Z 。
2)对标准化阵Z 求相关系数矩阵1
][-==n Z Z xp r R T p ij 其中,p j i n z z r kj kj ij ,...,2,1,,1.
=-=∑。
3)、解样本相关矩阵R 的特征方程0=-P I R λ得p 个特征根,确定主成分。