SAS主成分分析
主成分分析、判别分析、聚类分析sas程序
![主成分分析、判别分析、聚类分析sas程序](https://img.taocdn.com/s3/m/0bfb094dcf84b9d528ea7aef.png)
一、主成分分析1、数据引入PROC IMPORT OUT= WORK.shuruDA TAFILE= "E:\****\****\数据分析\试验\shouru.xls"DBMS=EXCEL2000 REPLACE;GETNAMES=YES;RUN;2、程序proc princomp data=shouru out=defen;var x1-x9;run;proc sort data=defen;by prin1 prin2;run;proc print data=defen;run;二、判别分析程序2.2方法1:先改变shuru 数据的结构,把待判的数据去掉,再引入数据data shouru1;input diqu $ x1-x9;cards;广东211.3 114 41.44 33.2 11.2 48.72 30.77 14.9 11.1西藏175.93 163.8 57.89 4.22 3.37 17.81 82.32 15.7 0;run;proc discrim data=shourutestdata=shouru1 method=normallist all crosslist testlist;class leixing;var x1-x9;run;方法2:原shuru数据不变,直接判别,但此法虽可判断待判的两省属于那类,但无法给出误判率;proc discrim data=shouruout=a1outstat=a2 outcross=a3method=normallist all crosslist testlist;class leixing;var x1-x9;run;程序2.3proc discrim data=shourutestdata=shouru1 method=normallist all crosslist crossvalidate testlist;class leixing;var x1-x9;priors prop;run;三、聚类分析程序proc cluster data=yjshr method=sin outtree=y1 ;/*最短距离法*/ var x1-x9;run;proc tree data=y1 nclusters=3 out=z1;run;proc print data=z1;run;proc cluster data=yjshr method=com outtree=y2 ;/*最长距离法*/ var x1-x9;run;proc tree data=y2 nclusters=3 out=z2;run;proc print data=z2;run;proc cluster data=yjshr method=ave outtree=y3 ;/*类平均距离法*/ var x1-x9;run;proc tree data=y3 nclusters=3 out=z3;run;proc print data=z3;run;proc fastclus data=yjshr out=a1maxc=3 cluster=c distance list; /*快速聚类分三类情况*/ proc plot;plot x2*x1=c;run;。
SAS学习系列33.-主成分分析
![SAS学习系列33.-主成分分析](https://img.taocdn.com/s3/m/c46fce0bb8f67c1cfbd6b86d.png)
SAS学习系列33.-主成分分析33. 主成分分析(一)原理一、基本思想主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。
其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。
在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。
如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2, 称为第二主成分。
为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0. 依此类推可以构造出第三、第四、…、第p个主成分。
主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。
二、基本原理设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,…,X p,得到原始数据资料阵:其中,X i = (x1i,x2i,…,x ni)T,i = 1, …, p.用数据矩阵X的p个列向量(即p个指标向量)X1,…,X p作线性组合,得到综合指标向量:简写成:F i = a1i X1 + a2i X2+…+a pi X p i = 1, …, p限制系数a i = (a1i,a2i,…,a pi)T为单位向量,即且由下列原则决定:(1)F i与F j互不相关,即COV(F i, F j)=a i T∑a i=0,其中∑为X 的协方差矩阵;(2)F1是X1,X2,…,X p的所有满足上述要求的线性组合中方差最大的,即F2是与F1不相关的X1,…,X p所有线性组合中方差最大的,…,F p是与F1,…,F p-1都不相关的X1,…,X p所有线性组合中方差最方向对应。
F1,F2,…,F p可以理解为p维空间中互相垂直的p 个坐标轴。
三、基本步骤1. 计算样品数据协方差矩阵Σ = (s ij)p p,其中2. 求出Σ的特征值及相应的特征向量λ1>λ2>…>λp>0, 及相应的正交化单位特征向量:则X的第i个主成分为F i= a i T X,i=1, …, p.3. 选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。
SAS—第六讲
![SAS—第六讲](https://img.taocdn.com/s3/m/2809eef2f90f76c661371ad8.png)
⎜⎛ λ1
⎟⎞
Var(Y ) =Var(AX ) = AΣA′ = ⎜ % ⎟
⎜ ⎝
λ
p
⎟ ⎠
因此,
⎜⎛ λ1
⎟⎞
p
Σ = A′⎜ ⎜ ⎝
∑ %
λ
p
⎟ ⎟ ⎠
A
,
σ
2 Xi
= (Σ)ii
=
a
2 ji
λ
j
j =1
。
命题得证。)
主成分的选取:
为了降维,往往选取个数小于原变量个数的前面若干主成分来代替原来的
大时,采用协方差矩阵计算的主成分与采用相关阵计算的主成分有较大差异。
例子 2:假定协方差矩阵为:
以此得出特征值和特征向量为
Σ
=
⎜⎜⎝⎛
1 4
1040 ⎟⎟⎠⎞
λ1 = 100.16, a1 = (0.04,0.999)′ λ2 = 0.84, a2 = (0.999,−0.04)′
第一主成分贡献率为 99.2%,如果取第一个主成分,两个原变量的信息提取度分 别为 v1 = 16%,v2 = 99.96% 。由此看出,第一个原变量的信息提取度很不理想。 从协方差矩阵计算出相关矩阵为:
SAS & DATA PROCESSING:
第六讲_PROC PRINCOMP
第六讲:主成分分析(PCA:principal component analysis) 及其 SAS 实现
§7.1 引言 设 X1,", X p 为 p 个随机变量,其方差协方差矩阵为 Σ
主成分分析的作用:
1、 数据降维 Σ 表明了随机变量 X1,", X p 的相关结构。如果找到 k 个不相关的变量( k < p )
sas主成分分析
![sas主成分分析](https://img.taocdn.com/s3/m/ce963d17aef8941ea66e057b.png)
sas主成分分析sas主成分分析第七章主成分分析实验目的:熟悉并掌握主成分分析和因子分析的原理和在变量分类、综合评价、主成分回归等几个方面的应用,以及相应的SAS程序实现。
实验内容:对我国钢铁行业上市公司的财务绩效状况进行主成分分析,选择的财务指标共有以下几个:流动比率,速动比率,存货周转率,总资产周转率,净资产收益率,经营净利率,每股收益,净资产收益率增长率,股东权益增长率。
数据如下:完成以下工作:(1)选取累积贡献率>85%的前几个主成分,分别计算得分;并对选取的主成分进行解释;(2)对各上市公司的财务绩效进行综合评价;(3)利用选取的主成分得分,借助聚类分析过程对钢铁行业上市公司进行分类。
datazcf;inputname$x1-x9;cards;邯郸钢铁1.5510.9717.1650.88910.7689.2680.451-16.0246.122武钢股份2.1921.828.0880.97515.05411.1140.336-3.0392.588钢联股份1.2860.9418.0441.1247.3894.5990.205-59.988122.041宝钢股份0.9790.5718.130.6019.7428.780.205-17.6853.989莱钢股份1.3640.4975.0780.9314.1039.1370.523-24.26114.16西宁特钢1.4330.6721.4620.4716.4297.2680.1559.3493.027杭钢股份2.1081.4988.3731.41816.7567.9370.531-18.72513.662邢台轧辊2.11.5951.8830.3966.4848.9810.1325.275-1.061宁夏恒力1.3641.0641.8680.2787.46919.8420.201-35.19455.428凌钢股份1.7721.0617.8411.11912.8838.8040.5285.34310.107南钢股份1.8181.3928.8661.54612.8855.1530.409-7.0286.131酒钢宏兴1.4410.88410.1681.07112.8317.8250.36744.0376.686抚顺特钢0.9550.6523.4160.5097.1476.8510.193-8.0741.93安阳钢铁1.8931.3335.1070.9810.9497.9150.3500上海科技1.3131.1824.6430.5689.5499.4230.19935.6353.582沪昌特钢10.8139.536.5850.5671.1031.6560.01915.031-7.171山川股份1.2520.5851.4850.45110.34414.6930.209-1.6159.799浦东不锈6.1865.1212.3630.2650.7542.5130.013-45.439-1.176新华股份1.8171.3143.2910.7469.9249.0280.137-3.5771.985工益股份1.8091.2674.0460.8280.6950.450.011104.419-4.714马钢股份1.5841.0694.3180.5692.0032.1830.03235.279-12.487宝信软件3.5943.2015.0140.82114.669.7210.147126.91123.243北特钢1.3851.0922.6910.467-11.21-7.917-0.14853.839-11.058广钢股份0.8590.513.8840.7224.2472.6850.096-32.409-4.004;procprincompn=9out=prin;varX1-x9;run;procprintdata=prin;varprin1-prin9;run;主要输出结果:相关阵的特征值和特征向量EigenvalueDifferenceProportionCumulative13.626730451.710877240.40300.403021.915853210.519337180.21290.615831.396516020.349008540.15520.771041.047507480.371047740.11640.887450.676459740.478913290.07520.962660.197546440.106501190.02190.984570.091045260.044878480.01010.994680.046166770.043992140.00510.999890.002174630.00021.0000EigenvectorsPrin1Prin2Prin3Prin4Prin5Prin6Prin7Prin8Prin9x1-.2632570.5528190.3251720.0999320.0123340.1292890.077190-.0215500.697189x2-.2696730.5512290.3176490.0909930.0600930.065411-.0196680.049407-.709595x30.3207430.454750-.227474-.1958410.013020-.7729000.0382700.0086860.033825x40.3790330.331485-.342911-.1840840.0144020.490904-.3231210.4986720.026498x50.4608530.1052280.1235360.3670920.0903870.094185-.486791-.610331-.003691x60.308953-.1918380.4762280.4505290.202663-.228562-.0285870.5848690.042126x70.4802260.1255120.0219100.155827-.2454280.2558630.762567-.122168-.082054x8-.1693840.077314-.5106640.4440140.6759650.0353110.220767-.0214310.005659x90.210440-.0652010.347445-.5918860.6553280.1132300.140544-.1355950.001607由输出特征值可知,第一主成分的贡献率为40.30%,第二个主成分的.贡献率为61.58%,第三个主成分的贡献率为77.10%,前四个主成分累计贡献率为88.74%。
SAS软件应用之主成分分析
![SAS软件应用之主成分分析](https://img.taocdn.com/s3/m/93c8653f650e52ea551898af.png)
本章小节
在大部分实际问题中,变量之间是有一定的相关性的,人们 自然希望找到较少的几个彼此不相关的综合指标尽可能多地 反映原来众多变量的信息。本章介绍了主成分分析的数学模 型、方法步骤以及主成分分析的应用。我们需要一种综合性 的分析方法,既可减少指标变量的个数,又尽量不损失原指 标变量所包含的信息,对资料进行全面的综合分析。主成分 分析正是适应这一要求产生的,是解决这类题的理想工具。 主成份分析的基本思想就是将彼此相关的一组指标变量转化 为彼此独立的一组新的指标变量,并用其中较少的几个新指 标变量就能综合反应原多个指标变量中所包含的主要信息, 符合专业含义。
主成分分析的方法步骤
计算主成分得分 如果标准化指标变量 X 1 , X 2 ,, X k 的第i个主成分是:
Z i liX li1 X 1 li 2 X 2 lik X k xij x j 其中, X ij , j, 1,2,, k sj 是xj的标准化指标变量。那么,第i个主成分可以 转换为原始指标变量的线性组合:
主成分分析的方法步骤
对原始指标数据进行标准化变换:
X ij xij x j sj , j 1,2,, k
将原始数据标准化,然后利用标准化的数据 计算主成分。X为标准化后的数据矩阵,则:
X 11 X X 21 X n1 X 12 X 22 X n2 X 1k X 2k X nk
li1 li 2 lik li1 x1 li 2 x2 lik xk zi x1 x2 xk ( ),i 1,2,, k s1 s2 sk s1 s2 sk
主成分分析的应用
主成分分析与因子分析(三):使用SAS实现主成分分析-FACTOR过程
![主成分分析与因子分析(三):使用SAS实现主成分分析-FACTOR过程](https://img.taocdn.com/s3/m/0de70059777f5acfa1c7aa00b52acfc788eb9f59.png)
主成分分析与因子分析(三):使用SAS实现主成分分析-FACTOR过程上一系列文章介绍了使用PRINCOMP过程进行主成分分析。
今天,我们将介绍使用FACTOR过程进行主成分分析。
FACTOR 过程除了PROC PRINCOMP外,还可以使用PROC FACTOR来进行主成分分析。
事实上,在进行标准化后,二者的结果是一样的。
为了比较二者的结果,首先介绍如何对数据进行标准化。
SAS对数据的标准化是通过PROC STDIZE实现的,PROC STDIZE的一般形式如下:其中:•选项METHOD=指定用于标准化的方法,常见的标准化方法有MEAN、SUM、EUCLEN和STD。
•VAR语句指定数据集中用来进行主成分分析的变量,变量类型必须为数值型。
若该语句缺失,那么PROC FACTOR将分析数据集中的所有数值型变量。
标准化的计算方法如下:这里LOCATION和SCALE的值与标准化方法有关。
表12.3列举了一些常见的标准化方法的LOCATION和SCALE值。
有关其他方法具体参数值建议读者参考SAS官方帮助文档。
表12.3 常见标准化方法中的LOCATION值与SCALE值这里仅简单介绍PROC FACTOR中与主成分分析相关部分的选项,在后面使用PROC FACTOR进行因子分析时,会对其他选项进行介绍。
PROC FACTOR的语法如下:其中:•常见的选项有:“DATA=”用于指定输入数据集,“SIMPLE”输出常见的统计量,“CORR”输出原始变量的相关矩阵。
•VAR语句指定数据集中用于分析的变量。
例12.2:使用PROC FACTOR对数据集sashelp.cars进行主成分分析。
示例代码如下:输出结果中基本统计量与相关矩阵的部分如图12.8所示。
图12.8 使用PROC FACTOR进行主成分分析过程中输出基本统计量与相关矩阵同时,PROC FACTOR还输出了相关矩阵的特征值与解释的变异比例,这部分内容也和PROC PRINCOMP一致(如图12.9所示)。
主成分分析和主成分回归(附实际案例和sas代码)
![主成分分析和主成分回归(附实际案例和sas代码)](https://img.taocdn.com/s3/m/29c146eef605cc1755270722192e453610665b70.png)
目录主成分分析和主成分回归(附实际案例和sas代码) (2)1 主成分分析的主要思想 (2)2 主成分分析的定义 (2)3 案例基本情况介绍餐饮业零售额相关因素 (3)4 案例相关因素的介绍相关因素的具体数据 (3)5 影响餐饮业零售额因素的主成分分析 (4)6 主成分回归 (9)主成分分析和主成分回归(附实际案例和sas 代码)1 主成分分析的主要思想在进行高维数据系统分析时,通过主成分分析,可以在纷繁的指标变量描述下,了解影响这个系统存在与发展的主要因素。
主成分分析是1933年由霍特林首先提出来的。
在信息损失最小的前提下,将描述某一系统的多个变量综合成少数几个潜变量,从而迅速揭示系统形成的主要因素,并把原来高维空间降到低维子空间。
主成分分析是研究如何通过少数几个主成分来解释多变量的方差的分析方法,也就是求出少数几个主成分,使他们尽可能多地保留原始变量的信息,且彼此不相关它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量,在这种变换中保持变量的总方差不变,同时具有最大总方差,称为第一主成分;具有次大方差,成为第二主成分。
依次类推。
若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出个)(p m m <主成分就够了,只要这m 个主成分能够反映原来所有变量的绝大部分的方差。
2 主成分分析的定义设研究对象涉及P 个指标,分别用p X X X ,,21表示,这个指标构成P 维随机向量为)',,,(21p X X X X =。
设随机向量的均值为u ,协方差矩阵为Σ。
主成分分析就是对随机向量进行线性变换以形成新的综合变量,用i Z 表示,满足下式:1212,1,2,,i i i ip P Z u X u X u X i p =++⋅⋅⋅+= (1)为了使新的综合变量能够充分反映原来变量的信息,则i Z 的方差尽可能大且各个i Z 之间不相关。
由于没有限制条件方差可以任意大,设有线面的约束条件:222121,(1,2,)i i ip u u u i p ++⋅⋅⋅== (2)主成分则为满足条件的i Z 。
主成份分析报告(包含sas程序)
![主成份分析报告(包含sas程序)](https://img.taocdn.com/s3/m/14b3c85fb6360b4c2e3f5727a5e9856a561226d7.png)
主成分分析实验报告实验内容:表1的数据是广东省各地市经济发展的基本数据,其中X1-城镇人口占常住人口比例(%),X2-固定资产投资(亿元),X3-人均可支配收入(元),X4-人均消费支出(元),X5-社会消费品零售总额(亿元),X6-第三产业占GDP百分比(%),X7-出口总额(亿美元),X8-人均地区生产总值(元)。
表1 安徽省各地市经济发展的基本数据城市X1X2X3X4X5X6X7X8广州82.532659.8527609.622820.93615.7760.9374.0588424.71189深圳1001709.1529244.521526.12567.9453.21619.7992022.45885珠海87.16410.5122858.617948.4404.4644.8177.8369652.80797汕头69.58291.913650.911659.5661.9639.540.1620282.83847佛山92.361470.5624577.919295.61408.7835245.7880391.16195韶关47.29356.516288.711467.6278.3645 5.7919490.55365河源40.5198.1512137.998054.92139.534.914.1313729.38507梅州46.2162.9813113.310365.7267.9839.3 6.7112528.23307惠州61.27758.972127817913.9491.137.8171.4935615.98569汕尾57289.4312560.218735.73282.0638.29.4813287.30274东莞86.391094.0833044.624269.9959.0751.2551.6759274.23927中山86.34545.6123088.3917414.7549.7639.4177.3662222.89651江门50.08492.0719003.7614262.87562.0734.279.4931915.39277阳江46.72239.4913075.219164.85305.383612.321999.29294湛江38.99393.2313665.210470.1559.9439.913.6516537.29201茂名37.5180.0113160.649764.1591.0543.1 5.3219853.45836肇庆44.89462.771506311030.3275.7843.720.322169.19445清远34.93841.2414314.799851.89303.5631.914.1522513.00645潮州62.1162.9812398.210758.29207.8937.618.718653.62032揭阳45.36393.513169.2410463.1341.4633.625.2514093.4095云浮50.2240.191321111383.48117.9133.7 6.1614128.88059利用主成分分析综合出适当的主成分及相应的主成分得分;利用上面的主成分得分对样品进行聚类分析,并给出适当的结论。
SAS编程:主成分分析和因子分析
![SAS编程:主成分分析和因子分析](https://img.taocdn.com/s3/m/7af8786acf84b9d529ea7a07.png)
SAS 统计分析与应用 从入门到精通 二、因子分析
语句说明:
4、FACTOR过程
(1)PROC语句用于规定运行FACTOR过程,并指定要分析的数据 集名。选项有: OUT=数据集名——规定一个输出数据集,其中包含原始数据以及 公共因子得分。在使用选项时,要指定公共因子的个数。 METHOD=选项——规定提取公共因子的方法。 N=n——规定被提取因子的最大数目,缺省值为变量的个数。 SCORE——规定打印因子得分系数。
SAS 统计分析与应用 从入门到精通 一、主成分分析
4、PRINCOMP过程
语句说明: (1)PROC语句用于规定运行PRINCOMP过程,并指定要分析的 数据集名。选项有: OUT=数据集名——规定一个输出数据集,其中包含原始数据以及 主成分得分。 N=n——规定要计算的主成分个数。 STANDARD——规定将OUT=的数据集中的主成分得分标准化为 单位方差。如果没有规定此选项,主成分得分的方差等于相应的特征值。 (2)VAR语句用来列出要分析的数值型变量的名字。如果不使用该 语句,则没有在其它语句规定的所有数值型变量都是要分析的变量。 (3)PARTIAl语句规定了偏出变量,使得PRINCOMP过程基于偏 相关阵或偏协方差阵进行主成分分析。
SAS 统计分析与应用 从入门到精通 二、因子分析
2、基本模型
SAS 统计分析与应用 从入门到精通 二、因子分析
2、基本模型
SAS 统计分析与应用 从入门到精通 二、因子分析
3、基本步骤
(1) 参数估计:为建立因子模型,首先要估计因子载荷和特殊因 子的方差,常用的方法有主成分法,主因子法和极大似然估计法等。
SAS 统计分析与应用 从入门到精通 二、因子分析
语句说明:
主成分分析与因子分析(二):使用SAS实现主成分分析--PRINCOMP过程
![主成分分析与因子分析(二):使用SAS实现主成分分析--PRINCOMP过程](https://img.taocdn.com/s3/m/9b9c06f6b9f67c1cfad6195f312b3169a451eac4.png)
主成分分析与因子分析(二):使用SAS实现主成分分析--PRINCOMP过程上一系列文章介绍了主成分分析概述。
今天,我们将介绍使用PRINCOMP过程进行主成分分析。
在SAS中,某种统计方法可能可以通过多个过程步实现。
这时候有必要了解过程步之间的区别。
比如,主成分分析就可以通过PROC FACTOR或PROCPRINCOMP实现。
PRINCOMP过程使用PROC PRINCOMP进行主成分分析时,其输入可以是原始数据集、协方差矩阵或相关矩阵等,其输出数据集包含特征根、特征向量以及标准化或未标准化的主成分得分。
此外,使用者还可以通过ODS图像选项输出陡坡图(Scree Plot)、成分特征图(Component Pattern Plot)等图形,这些图形都是进行主成分分析的有用工具。
过程步PROC PRINCOMP的一般形式为:其中:•PROC PRINCOMP语句中常见的选项如表12.1所示。
•BY语句指定分组变量。
PROC PRINCOMP根据BY语句中的变量对原数据进行分组分析。
若BY语句中的变量多于一个,那么仅最后一个变量起作用。
该语句要求原始数据已按照BY语句中的变量排序。
•VAR 语句指定数据集中用来进行主成分分析的变量,这些指定变量类型必须为数值型。
表12.1 PROC PRINCOMP常见的选项及含义例12.1:数据集sashelp.cars包含不同型号的汽车的一些参数,共有15个变量以及428条观测,具体变量的含义如表12.2所示。
现在要根据数据集sashelp.cars中的变量MPG_City、MPG_Highway、Weight、Wheelbase以及 Length,对其进行主成分分析。
表12.2 数据集sashelp.cars中的变量具体信息示例代码如下:程序的输出结果中包含了数据集的一些简单统计量,具体如图12.3所示。
图12.3 数据集sashelp.cars的简单统计量紧接着是相关矩阵以及该矩阵对应的特征值,如图12.4所示。
10_SAS中主成分分析
![10_SAS中主成分分析](https://img.taocdn.com/s3/m/9bfe22263968011ca30091e6.png)
x4 0.96 0.74 0.38 1
x5 0.89 0.58 0.31 0.9 1
x6 0.79 0.58 0.3 0.78 0.79 1
x7 0.76 0.55 0.35 0.75 0.74 0.73 1
x8 0.26 0.19 0.58 0.25 0.25 0.18 0.24 1
x9 0.21 0.07 0.28 0.2 0.18 0.18 0.29 -0.04
78 80 75
10
11 12 13
139
140 161 158
31
29 47 49
68
64 78 78
74
74 84 83
25
26 27 28
157
151 144 141
48
36 36 30
80
74 68 67
88
80 76 76
14
15
140
137
33
31
67
66
77
73
29
30
139
148
32
-.543213 0.210246 0.724621 -.368294
主成分分析princomp过程的结果(第一、二主成 分为坐标的散布图):
书p282,表7.5,16项身体指标的相关阵
_name_ x1 x2 x3 x4 x5 x6 x7 x8
x1 1
x2 0.79 1
x3 0.36 0.31 1
1
-0.34
1
-0.16
0.23 1
-0.05
0.5 0.24 1
0.23
0.31 0.1 0.62 1
0.21
0.15 0.31 0.17 0.26 1
主成分分析SAS实验
![主成分分析SAS实验](https://img.taocdn.com/s3/m/e19b7b60767f5acfa1c7cdb9.png)
主成分分析和因子分析也可以用下列各种统计 分析的中间结果矩阵进行分析:
CORR 相关系数矩阵 SSCP 平方和、积和矩阵 CSSCP 离均差平方和、积和矩阵 COV 方差、协方差矩阵 UCOV 为平方和、积和矩阵/n UCORR 为 XY / X 2Y 2 矩阵 FACTOR 因子矩阵
eigenvalue )>70% 碎石图(Scree plot) 能有恰当的专业解释
练习1:主成分分析(变量单位不同)
20例肝病患者4项肝功能指标: X1:转氨酶(SGPT); X2:肝大指数(F); X3:硫酸锌浊度(ZnT); X4:甲胎球蛋白(AFP)
试作主成分分析
程序: \unit4\princomp1.sas 数据: \unit4\princomp1.xls
练习2:主成分分析(变量单位相同)
我国27个少数民族体型资料
X1:头长; X2: 头宽;
X3: 额最小宽;
X4: 面宽;
X5: 下额角间宽; X6: 容貌面高;
X7: 形态面高; X8: 鼻高;
X9: 鼻宽;
X10: 口裂宽; X11:身长;
X12: 肩宽;
X13: 胸围; X14:骨盆宽; X15:全头高;
主成分分析
公共卫生学院信息数据处理教学实验室
一、主成分分析
实际工作中原始数据的变量之间常有一定 的相关性。人们希望找到较少的几个互不相关 的综合指标,尽可能多的反映原来的信息。
主成分分析就是由原变量X1~Xp中线性组 合出m个(m≤p)互不相关、且尽量少丢失信息的 新变量(主成分),并能给各主成分所包含的信 息以恰当的专业解释。
需要在数据步中指定: _TYPE_= ‘CORR';
sas主成分分析与因子分析
![sas主成分分析与因子分析](https://img.taocdn.com/s3/m/4cb19910580216fc700afd5e.png)
主成分分析是数学上对数据降维的一种方法。其基本 思想是设法将原来众多的具有一定相关性的指标(比如 p个指标),重新组合成一组新的互不相关的综合指标 来代替原来指标。通常数学上的处理就是将原来 p 个指 标作线性组合,作为新的综合指标。但是这种线性组合, 如果不加限制,则可以有很多,应该如何去选取呢?
Var ( F ) max Var ( c 1 iX i) ,其中c = (c1,c2,…,cp)' c 'c 1
i 1 p
F2是与F1不相关的X1,X2,…,Xp一切线性组合中方 差最大的, …, Fp 是与 F1, F2, …, Fp-1都不相关的 X1, X2,…,Xp的一切线性组合中方差最大的。
p
信息的能力越强。
i 1
3. 主成分分析的步骤
(1) 计算协方差矩阵 计算样品数据的协方差矩阵:Σ = (sij)pp,其中
1 n s ( x x x x ij ki i)( kj j) n 1 k 1
i,j = 1,2,…,p
(2) 求出Σ的特征值及相应的特征向量 求出协方差矩阵 Σ 的特征值 12…p>0 及相应的正 交化单位特征向量:
t 1
x k jx j ( x x )
t 1 tj j n 2
( x x )( x x )
k 1 ki i kj j n 2 n ti i tj j
n
( x x ) ( x x )
t 1 t 1
r ij
2
n 1
n 1
i,j = 1,2,…,p 此时n个样品在m个主成分上的得分应为: Fj = a1jX1* + a2jX2* +...+ apjXp* j = 1,2,…,m
SAS主成分分析
![SAS主成分分析](https://img.taocdn.com/s3/m/4e65fee287c24028905fc3bd.png)
S A S主成分分析(总19页) -CAL-FENGHAI.-(YICAI)-Company One1-CAL-本页仅作为文档封面,使用请直接删除SAS主成分分析分类:数据之美 2013-07-28 20:18 2343人阅读评论(0) 收藏举报目录()[-]1.主成分分析流程2.SAS主成分分析示例3.SAS主成分分析输出结果详解4.特征值和特征向量隐藏的秘密5.总结6.参考文献同事讲主成分分析,举了这么个例子:就像你选女人,有身材、相貌两个指标,如果身材、相貌都很突出,那当然很好选择;但如果两个女人,一个身材突出,一个相貌出众,看着都很喜欢,那可如何是好!这个时候通过主成分分析,汇总出一个指标,这个指标可以一定程度上代替原来的身材、相貌,这时就可以排序做出选择了。
这例子当然有很多缺陷,但至少指出了主成分分析的目的之一:减少决策变量数,也就是降维。
主成分分析的另一个目的是防范多重共线性。
实际问题往往涉及很多变量,但某些变量之间会有一定的相关性,我们希望构造较少的几个互不相关的新指标来代替原始变量,去除多重共线性,减少所需分析的变量,同时尽可能减少这一过程的信息损失。
主成分分析正是基于这样的目的而产生的有效方法。
主成分分析流程主成分分析包含以下流程:1、原始数据标准化。
2、计算标准化变量间的相关系数矩阵。
3、计算相关系数矩阵的特征值和特征向量。
4、计算主成分变量值。
5、统计结果分析,提取所需的主成分。
SAS主成分分析示例我们从实战入手,先来个简单的例子,完整体验使用SAS进行主成分分析的过程。
准备好图1所示的数据集,该数据集包含5个变量和22个观测。
其中变量num用于标识每条观测。
图1可以直接复制下面的程序完成输入:data;input num var1 var2 var3 var4;cards;1 2123 904 1256789101112131415 9016171819202122;run;我们的目的是,化简var1-var4四个变量,找出可以替代这四个变量的若干个彼此独立的新变量,也就是找出主成分。
SAS主成分分析
![SAS主成分分析](https://img.taocdn.com/s3/m/cfd4238b84868762caaed5b4.png)
cov( y1 , y 2 ) = 0
(7.25)
'
于是,我们在约束条件(7.2.2)式和(7.2.5)式下寻求向量 a 2 ,使 V ( y 2 ) = a 2 Sa 2 达到最 大,所求的 y 2 称为第二主成分。类似地,我们可以再定义第三主成分、…、第 p 主成分。 一般来说, x 的第 i 主成分 y i = a i x 是指:在约束条件(7.2.2)和
k 设 X 和 Y 是随机变量,若 E ( X ) , k = 1, 2, L 存在,称它为 X 的 k 阶原点矩,简称 k
阶矩。 若 E [ X - E ( X )] k , k = 1, 2, L 存在,称它为 X 的 k 阶中心矩。 若 E ( X k Y l ) , k , l = 1, 2, L 存在,称它为 X 和 Y 的 k + l 阶混合矩。
y i = t i' x ,它具有方差 li , i = 1,2, L , p 。
二、主成分的性质
5
1. 主成分的均值和协方差矩阵 记
æ y1 ö æ l1 ç ÷ ç ç y2 ÷ ç y = ç ÷ , u = E ( y) , L = ç M ç ÷ ç ç0 ç yp ÷ è è ø
由于
l2
ål
i =1
i =1 i =1 i =1
p
p
p
= l1 (t t ) + l 2 (t t ) + L + l p (t t )
' 2 1 1 ' 2 1 2
' 2 1 p
= l1 + 0 = l1
所以, y1 = t1' x 就是所求的第一主成分,它的方差具有最大值 l1 。 如果第一主成分所含信息不够多,还不足以代表原始的 p 个变量,则需考虑使用 y 2 , 为了使 y 2 所含的信息与 y1 不重叠,应要求
SAS主成分分析
![SAS主成分分析](https://img.taocdn.com/s3/m/d93abe0cba1aa8114431d9f5.png)
SAS 大作业主成分分析法理学院07统计学01班孙禹40708030104SAS 主成分分析利用SAS 程序我们可以进行主成分分析以及因子分析,因此首先要明白主成分分析与因子分析的概念与步骤,以方便进行后续工作1. 主成分分析的基本思想主成分分析是数学上对数据降维德一种方法。
其基本思想是设法将原来众多的具有一定相关性的指标,重新组合成一组新的互不相关的综合指标来代替原来指标。
这种线性组合有很多种,选取时,在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P 个指标的信息,再选取F2即第二个线性组合,依次类推。
一般地说,利用主成分分析得到的主成分与原始变量之间有如下的关系:(1)、每个主成分都是各原始量的线性组合。
(2)、主成分的数目大大少于原始变量的数目。
(3)、主成分保留了原始变量绝大多数信息。
(4)、各主成分之间互不相关2主成分分析的基本理论假设我们所讨论的实际问题中,有p 个指标,我们把这p 个指标看作p 维随机变量,记为X=(X 1,X 2,…,X p )T ,主成分分析就是要把这p 个指标的问题,转变为讨论p 个指标的线性组合的问题,而这些新的指标F 1,F 2,…,F k (k ≤p ),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。
3主成分分析步骤根据研究问题选取初始分析变量;根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分; 求协方差阵或相关阵的特征根与特征向量;11112121212122221122p p p p p p p pp pY u X u X u X Y u X u X u X Y u X u X u X =+++=+++=+++判断是否存在明显的多重共线性,若存在,则回到第一步;得到主成分表达式并确定主成分个数,选取主成分;结合主成分对研究问题进行分析并深入研究。
4主成分的上机实验例:北京1961~1986年冬季的气温资料如表,变量个数p=3,对这些资料进行主成分分析。
11-使用SAS进行主成分分析
![11-使用SAS进行主成分分析](https://img.taocdn.com/s3/m/0ccfabccbcd126fff6050b2b.png)
例如:评价儿童的生长发育情况,某研究者收集了12 个指标,如身高、体重、胸围、肩宽、肺活量等资料。应 如何利用这12个指标进行评价?
这些指标个数很多,且指标间往往是彼此相关的。 如仅选用其中一个指标来评价,则:损失信息 如分别应用每个指标,则:评价是孤立的,非综合性
主成分分析的一般步骤
1、 收集数据并建立数据库
2、 对变量进行标准化处理
yi
xi xi si
,i1,2,p
3、 求主成分:
(1) 求相关矩阵R
r11
R
r1 p
(2) 求R的特征根:
rp1 rpp
λ1≥λ2≥….≥λP
(3) 求R的关于特征根λi的满足正规条件的特征 向量 ai, (ai1,ai2 ,…,aip ) i=1,2,…P
由表达式z2=-0.707lyl十0.707ly 2,可见y1、y2的系数绝对值相 等,符号相反,前者为负后者为正,说明前音(体重)愈大,第二主 成分的取值愈小,后者(身高)愈大,第二主成分的取值也愈大,即 矮胖者第二主成分取值大,瘦高者第二主成分取值小,说朗第二主 成分描述的是幼儿的体型。
(四)、计算主成分得分
主成分分析的好坏关键在于给综合指标所蕴藏的信 息以恰当的解释。
三、 主成分分析的基本原理:
主成分分析是对多个指标的观察数据 降维压缩,对指标间的内部从属性作客观 评价的多元分析方法。
例:对n个儿童测量其身高(x1)、体重(x2)两个指标, 显然这两个指标是高度相关的,若以x1为横,以x2 为纵轴,用n个对象的数据作散点图。
i p
i
SAS主成分分析
![SAS主成分分析](https://img.taocdn.com/s3/m/1122629d960590c69ec3762a.png)
C1
• • • • • • • • • • • •• • •
x1
10/41
平移、旋转坐标轴 主 成 分 分 析 的 几 何 解 释
C2
x2
•
C1
• • • •• • • • • • • •• • •• • • • • • • • • •• •• • • •• • • •••• • • • • •• •• • • • • • • • ••• • • • • • • •• • • • • • •• •• • • • • • • • • • • •• • • •• • • • • • • •
20/41
变量的标准化
获得相关矩阵
rij
(x
k 1
n
r11 r12 r21 r22 R rm1 rm 2
xi )(xkj x j )
2ቤተ መጻሕፍቲ ባይዱn
r1m r2 m rmm
ki
(x
k 1
n
ki
xi )
(x
k 1
kj
xj)
2
21/41
x1 x1 1
x2
x3
x4
2 11 2 12
a 1
2 1m
实际上就是要找个最好的方向,使得所有变 量在该方向最分散
14/41
第二主成分
第二主成分C2 也必须是原始变量z1, z2, …, zm的一个线性组合: C2=a21z1+a22z2+…+a2mzm
同样具有限制:
a a
2 21 2 22
a
2 2m
x1
11/41
变量的标准化
正式分析之前,为了消除原指标取值单位对分析 的影响,需要对原指标进行标准化变换。经过标
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析在SAS中用princomp过程:
proc princomp data=d721 prefix=z out=o721 ; var x1-x4; run; options ps=32 ls=85; proc plot data=o721; plot z2*z1 $ number='*'/href=-1 href=2 vref=0; run; proc sort data=o721; by z1; run; proc print data=o721; var number z1 z2 x1-x4; run; quit; 主成分分析有一个princomp过程就足够 了。prefix=z表示,在输出数据集中 (o721中),表示对每行数据加入一列,变量名_type_, 值为’corr’。
data d731(type=corr); 比如一行,_type_=‘mean’,表示这一行是各变量均值 input _name_$ x1-x16; _type_=‘std’表示这行是标准差, _type_='corr'; cards; x1 1.0 0.79 0.36 0.96 0.89 0.79 0.76 0.26 0.21 0.26 0.07 0.52 0.77 0.25 0.51 0.21 x2 . 1.00 0.31 0.74 0.58 0.58 0.55 0.19 0.07 0.16 0.21 0.41 0.47 0.17 0.35 0.16 x3 . . 1.00 0.38 0.31 0.30 0.35 0.58 0.28 0.33 0.38 0.35 0.41 0.64 0.58 0.51 x4 . . . 1.00 0.90 0.78 0.75 0.25 0.20 0.22 0.08 0.53 0.79 0.27 0.57 0.26 x5 . . . . 1.0 0.79 0.74 0.25 0.18 0.23 -.02 0.48 0.79 .27 .51 .23 x6 . . . . . 1 .73 .18 .18 .23 .00 .38 .69 .14 .26 .00 x7 . . . . . . 1 .24 .29 .25 .10 .44 .67 .16 .38 .12 _type_=‘corr’表示这一行数据是协 x8 . . . . . . . 1 -.04 .49 .44 .30 .32 .51 .51 .38 方差。可是协方差必须指出,这是 x9 . . . . . . . . 1 -.34 -.16 -.05 .23 .21 .15 .18 该变量和哪个变量之间的协方差, x10 . . . . . . . . . 1 .23 .50 .31 .15 .29 .14 这由_name_变量指出。 x11 . . . . . . . . . . 1 .24 .10 .31 .28 .31 所以,x1与x2的协方差在x1变量列 x12 . . . . . . . . . . . 1 .62 .17 .41 .18 的_type_=‘corr’并且_name_=‘x2’的 x13 . . . . . . . . . . . . 1 .26 .50 .24 行,或者位于x2变量列的 x14 . . . . . . . . . . . . . 1 .63 .50 _type_=‘corr’并且_name_=‘x1’的行 x15 . . . . . . . . . . . . . . 1 .65 x16 . . . . . . . . . . . . . . . 1 ;
x14 0.25 0.17 0.64 0.27 0.27 0.14 0.16 0.51
x15 0.51 0.35 0.58 0.57 0.51 0.26 0.38 0.51
x16 0.21 0.16 0.51 0.26 0.23 0 0.12 0.38
x9
x10 x11 x12 x13 x14 x15 x16
-.200400 -.143202 0.328625 -.181124 -.199650 -.269807 -.192150 0.370267 -.067472 0.174246 0.347850 0.017665 -.111914 0.371353 0.271225 0.362824
4.42244473 0.98192786
前3个特征值所对应的特征向量,也就是前3个主 成分:
Eigenvectors Prin1 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 0.341771 0.264992 0.234152 0.344233 0.326118 0.285914 0.295261 0.189273 0.084793 0.154295 0.098355 0.242546 0.317158 0.180113 0.266359 0.158333 Prin2 Prin3 0.005720 -.056565 0.139937 0.032229 0.032945 -.029540 0.019608 -.150284 0.625563 -.527507 -.202115 -.314796 -.018841 0.252416 0.135449 0.243441
主成分分析princomp过程的结果(相关系数矩阵 的特征值、特征向量):
Eigenvalues of the Correlation Matrix Eigenvalue 1 2 3 4 3.54109800 0.31338316 0.07940895 0.06610989 Difference Proportion 0.8853 0.0783 0.0199 0.0165 Cumulative 0.8853 0.9636 0.9835 1.0000
Options ps=32 ls=85表示输出屏 幕定义为一页32行,每行85字符
plot过程已经很熟悉了。 href=-1表示在横坐标z1=-1处画一 条垂线,vref=0表示在纵坐标z2=0 处画一条垂线。 $number=‘*’表示每个点在图上用* 表示,并且在*后显示该样本点的 number变量的值。
3.22771484 0.23397420 0.01329906
Eigenvectors z1 x1 x2 x3 x4 0.496966 0.514571 0.480901 0.506928 z2 z3 z4 -.449627 -.462330 0.175177 0.743908 0.505747 -.690844 0.461488 -.232343
38
68
70
73
78
输入资料:
data d721; input number x1-x4 @@ ; cards; 1 148 41 72 78 2 139 34 71 76 3 160 49 77 86 4 149 36 67 79 5 159 45 80 86 6 142 31 66 76 7 153 43 76 83 8 150 43 77 79 9 151 42 77 80 10 139 31 68 74 11 140 29 64 74 12 161 47 78 84 13 158 49 78 83 14 140 33 67 77 15 137 31 66 73 16 152 35 73 79 17 149 47 82 79 18 145 35 70 77 19 160 47 74 87 20 156 44 78 85 21 151 42 73 82 22 147 38 73 78 23 157 39 68 80 24 147 30 65 75 25 157 48 80 88 26 151 36 74 80 27 144 36 68 76 28 141 30 67 76 29 139 32 68 73 30 148 38 70 78 ; 注意输入数据使用了@@,这表示 不同的样本点可以在同一行输入。
x4 0.96 0.74 0.38 1
x5 0.89 0.58 0.31 0.9 1
x6 0.79 0.58 0.3 0.78 0.79 1
x7 0.76 0.55 0.35 0.75 0.74 0.73 1
x8 0.26 0.19 0.58 0.25 0.25 0.18 0.24 1
x9 0.21 0.07 0.28 0.2 0.18 0.18 0.29 -0.04
x10 0.26 0.16 0.33 0.22 0.23 0.23 0.25 0.49
x11 0.07 0.21 0.38 0.08 -0.02 0 0.1 0.44
x12 0.52 0.41 0.35 0.53 0.48 0.38 0.44 0.3
x13 0.77 0.47 0.41 0.79 0.79 0.69 0.67 0.32
17
18 19 20
149
145 160 156
47
35 47 44
82
70 74 78
79
77 87 85
6
7 8 9
142
153 150 151
31
43 43 42
66
76 77 77
76
83 79 80
21
22 23 24
151
147 157 147
42
38 39 30
73
73 68 65
82
下面是算出的前3个特征值:
Eigenvalues of the Correlation Matrix Eigenvalue 1 2 3 7.03647744 2.61403272 1.63210486 Difference Proportion 0.4398 0.1634 0.1020 Cumulative 0.4398 0.6032 0.7052
-.543213 0.210246 0.724621 -.368294
主成分分析princomp过程的结果(第一、二主成 分为坐标的散布图):