第五章 主成分分析(1)(主成分模型)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章主成分分析与经验正交分解
5.1主分量分析的数学模型
当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机变量,是很必要的。首先我们看一个例子。
几个数据集
1、
(1)身材情况能否用单个指标刻画
(2)男女身材之间有什么异同
chest waist hips gender chest waist hips gender
34 30 32 male 36 24 35 female
37 32 37 male 36 25 37 female
38 30 36 male 34 24 37 female
36 33 39 male 33 22 34 female
38 29 33 male 36 26 38 female
43 32 38 male 37 26 37 female
40 33 42 male 34 25 38 female
38 30 40 male 36 26 37 female
40 30 37 male 38 28 40 female
41 32 39 male 35 23 35 female
2、
subject maths english history geography chemistry physics
1 60 70 75 58 53 42
2 80 65 66 75 70 76
3 53 60 50 48 45 43
4 8
5 79 71 77 68 79
5 45 80 80 84 44 46
3、
air pollution in cities in the USA. The following variables were obtained for 1 US cities:
SO2: SO 2 content of air in micrograms per cubic metre;
temp: average annual temperature in degrees Fahrenheit;
manu: number of manufacturing enterprises employing 20 or more workers;
popul: population size (1970 census) in thousands;
wind: average annual wind speed in miles per hour;
precip: average annual precipitation in inches;
predays: average number of days with precipitation per year.
例5.1 为了调查学生的身材状况,可以测量他们的身高(1x )、体重(2x )、胸围(3x )和坐高(4x )。可是用这4个指标表达学生身材状况不方便。但若用
1y =3.63561x +3.32422x +2.47703x +2.16504x
表示学生身体魁梧程度;用
2y =-3.97392x +1.35821x +3.73233x -1.57294x
表示学生胖瘦程度。则这两个指标(1y ,2y )很好概括了4个指标(1x -4x )。
例中,学生不同,身高(1x )、体重(2x )、胸围(3x )和坐高(4x )不同;(1x , 2x , 3x , 4x )
是4维随机向量;1y ,2y 是他们的2个线性组合,1y ,2y 能很好表示1x , 2x , 3x ,
4x 的特性。类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA 方法,见吴洪宝(2005)。
主成分分析的数学模型是:对于随机向量X ,想选一些常数向量i c ,用X c i '尽可能多反映随机向量X 的主要信息,也即)'(X c D i 尽量大。但是i c 的模可以无限增大,从而使)'(X c D i 无限变大,这是我们不希望的;于是限定i c 模的大小,而改变i c 各分量的比例,使)'(X c D i 最大;通常取i c 的模为1最方便。
定义5.1 设随机向量)',...(1p x x X =二阶矩存在,若常数向量1c ,在条件c =1下 使)'(X c D 最大,则称X c Y '11=是X 的第一主成分或第一主分量。
由定义可见,1Y 尽可能多地反映原来p 个随机变量变化的信息。但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含1Y 的信息)。
定义5.2 若常数向量c=2c 在条件c =l ,0)',cov(1=X c Y 下,使)'(X c D 最大, 则称X c Y '22=是 X 的第二主成分;若常数向量c=3c 在条件c =l ,0)',cov(1=X c Y , 0)',cov(2=X c Y 下,使)'(X c D 最大,则称X c Y '33=是 X 的第三主成分;…。
当随机向量方差已知时,定理5.1给出主成分的计算公式。
定理5.1 设随机向量)',...(1p X X X =方差存在为∑。∑特征值从大到小为
p λλλ≥≥≥...21,j λ对应的彼此正交单位特征向量为j c 。则X 的第j 个主成分 为 j c 与X 的内积,即
X c Y j j '= (5.1)
且i i Y Var λ=)(
证明:任取p 维单位向量c,必有∑∑==1,2j j j t c t c 。于是
∑=∑=j j t c c X c D λ2
')'(,
而在条件∑=12j t 下,当11=t ,0...2===p t t 即1c c =时,