数据分析二主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据分析二 主成分分析
主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法。

多元
统计分析处理的是多变量(多指标)问题。

由于变量个数太多,并且彼此之间存在着一定的相关性,因而使得所观测到的数据在一定程度上反映的信息有所重迭。

而且当变量较多时,在高维空间中研究样本的分布规律比较复杂。

人们自然希望用较少的综合变量来代替原来较多的变量;而这几个综合变量又能够尽可能多地反映原来变量的信息,而且彼此之间互不相关。

利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法。

本章介绍主成分分析方法。

§5.1 总体的主成分
1.总体主成分的定义
设'1),,(p X X X =是p 维随机向量,均值U X E =)(,协差阵∑=)(X D 。

考虑它的线
性变换:
⎪⎪⎩
⎪⎪⎨⎧+++==+++==+++==p pp p p p p p p p p X a X a X a X a Z X a X a X a X a Z X a X a X a X a Z 2211'
2222112'221221111'11 (5.1)
易见 ),,2,1()('p i a a Z Var i i i ==∑
),,2,1,(),('p j i a a Z Z Cov j
i j i ==∑ 定义5.1 设()',,1p X X X =为p 维随机向量。

称X a Z i i '=为X
的第i 主成分),,2,1(p i =,如果:
①),,2,1(;1'p i a a i i ==
②当1>i 时)1,,2,1(;0'-==i j a a j
i ③
)'()()1,,1(0',1'X a Var Max Z Var i j a a a a i j -====
2.总体主成分的性质
记)(ij σ=∑,),,,(21p diag λλλ =Λ,其中p λλλ≥≥≥ 21为∑的特征
值,p a a a ,,,21 是相应的标准化特征向量。

主成分'1),,(p Z Z Z =,其中
X a Z i i '= ),,2,1(p i =。

①Λ=)(Z D ,即p 个主成分的方差为:i i Z Var λ=)
(,且它们是互不相关的。

②∑∑===p i i p i ii 11λσ 常称为∑=p
i ii 1σ系统总方差,该性质说明系统总方
差可分解为不相关的主成分的方差和,且存在p m <,使∑∑==≈p i i p i ii 11λσ。

即p 个原变量所提供的总信息的绝大部分只须用前m 个主成分来代替。

③主成分k Z 与原始变量i X 的相关系数
()ii ik k i k a X Z σλρ/,= ),,2,1,(p i k =
并把主成分k Z 与原始变量i X 的相关系数称为因子负荷量。

④()()p i X Z p i i k ,,2,11,12 ==∑=ρ
因i X 也可表示成p Z Z ,,1 的线性组合,且p Z Z ,,1 相互独立,由回归分
析的知识,i X 与p Z Z ,,1 的全相关系数的平方和等于1。

⑤()()p k X Z p i i k ii ,,2,11,12 ==∑=ρσ
用主成分的目的是为了减少变量的个数,故在实际应用中一般绝不
p 个主成分,而选用m (p m <
)个主成分。

m 取多大,这是一个很实际的问题。

为此,我们引进贡献率的概念。

定义5.2 称∑=p i i k 1/λλ为主成分k Z 的贡献率;又称∑∑==p
i i m k k 11/λλ为主成分m Z Z ,,1 (p m <)的累计贡献率。

定义 5.3 前m 个主成分m Z Z ,,1 对原变量的贡献率i v 是i X 与
m Z Z ,,1 相关系数的平方,它等于
ii m
k ik k i a v σλ/12∑==
§5.2 样本的主成分
上节讨论了总体的主成分,在实际问题中,一般协差阵∑未知,需要通过
样本来估计。

设()()),,1(,,'1n t x x X tp t t ==为来自总体X 的样本,样本离差阵S 及样本相关阵R 分别为
()()()j tj n
t i ti ij x x x x s S --=≈∑=1 ()),,2,1,(p j i s s s r R jj ii ij
ij === 用S n 1
1ˆ-=∑作为∑的估计或用R 作为总体相关阵的估计。

1. 样本主成分的定义 设0=,并且每个变量的观测数据都已标准化,这时样本协差阵就是样
本相关阵R 。


X X n R '11-= 记R 阵的p 个主成分p Z Z ,,1 。

p λλλ≥≥≥ 21为R 的特征
值,p a a a ,,,21 是相应的标准化特征向量。

显然X a Z i i '=),,2,1(p i =。


第t 个样品()()'
1,,tp t t x x X =的值代入i Z 得样品的第i 个主成分得分),,1(p i z ti =。

2. 样本主成分的性质 ①()⎩⎨⎧=≠==j i 1-n j i 0
,0'当当i j i
z z Z λ
②p p i i =∑
=1λ 称p k
λ为样本主成分k Z 的贡献率;又称p m
λλ +1为样本主成分
m Z Z ,,1 )(p m <的累计贡献率。

③样本主成分具有使残差平方和最小的优良性。

§5.3 PRINCOMP (主成分)过程
为了考察p 个数值变量p X X X ,,,21 之间的相关性,调用PRINCOMP 过程
进行主成分分析。

用户可以使用下列语句来调用PRINCOMP 过程:
PROC PRINCOMP 选项1 选项2 …;
VAR 变量1 变量2 …;
WEIGHT 变量;
FREQ 变量;
PARTIAL 变量1 变量2 …;
BY 变量1 变量2 …;
除调用过程的PROC PRINCOMP 语句外,VAR 语句经常使用,其它语句是选择
使用的语句。

1.PROC PRINCOMP 语句
可以出现在PRINCOMP 过程语句中的常用选项如下:
①DATA=SAS 数据集——给出被分析的SAS 数据集的名字。

②OUT=SAS 数据集——命名一个存放原始数据以及主成分得分数据的输出
数据集。

③OUTSTAT=SAS 数据集——命名一个存放均值、标准差观测个数、相关阵或
协差阵、特征值和特征向量的输出SAS 数据集。

如果规定选择项COV ,则数据集的类型为TYPE=COV ,而且包含协差阵;否则,数据集的类型为TYPE=CORR ,而且包含相关阵。

④COVARIANCE ——要求从协差阵出发计算主成分。

如果没有规定此项选择,
则从相关阵出发进行分析。

⑤N=n ——规定被计算的主成分个数。

缺省值为变量个数。

⑥NOPRINT ——规定不显示输出结果。

⑦PREFIX=name(名字)——对主成分的名字规定前缀。

缺省时的名字为
PRIN1、PRIN2、…、PRINp 。

⑧STANDARD ——要求在OUT=数据集里主成分得分标准化为单位方差。

如果
没有规定此项选择,主成分得分的方差等于相应的特征值。

⑨VARDEF=divisor (除数)——规定用于计算方差和协方差的除数。

Divisor
的可能值为N 、DF 、WEIGHT 或WGT 和WDF 。

2.VAR语句
VAR语句列出用于进行主成分分析的变量。

如果省略VAR语句,则SAS系统
使用DATA=规定的数据集中所有数值变量进行主成分分析。

例5.1 下面是全国19个城市在1993年的数据,每个城市记录了6项指标:
Z1:国内生产总值(亿元);Z2:固定资产投资(亿元)Z3:货运总量(万吨);Z4:社会消费品零售额(亿元);Z5:外贸出口额(亿美元);Z6:拥有电话数(万门)
具体数据如下:
指标
城市 Z1 Z2 Z3 Z4 Z5 Z6
BJ(北京) 863.50 318.221 30640 532.864 13.706 144.756
TJ(天津) 536.10 153.655 18217 227.420 66.030 65.080
SY(沈阳) 402.45 73.508 12729 171.266 2.700 41.281
DL(大连) 369.45 84.975 18914 135.393 60.634 24.948
CC(长春) 238.51 44.537 5671 83.077 0.487 24.897
HB(哈尔滨) 210.28 57.690 6045 128.100 5.437 31.240
SH(上海) 1511.61 519.595 25708 624.306 139.772 154.346
NJ(南京) 325.68 77.150 8113 135.070 9.578 36.403
HZ(杭州) 424.71 58.528 9082 149.107 1.988 41.949
FZ(福州) 228.20 15.684 1643 77.716 10.300 24.416
XM(厦门) 137.83 40.215 1455 53.334 13.332 147.581
JN(济南) 270.76 45.406 5400 101.542 0.392 19.440
QD(青岛) 379.40 68.193 10254 111.620 44.515 26.239
WH(武汉) 357.23 86.988 12031 170.550 3.660 36.305
GZ(广州) 740.84 140.759 24083 303.009 137.154 92.097
SZ(深圳) 413.54 132.929 2052 160.513 136.915 50.177
CD(成都) 418.63 70.529 11074 144.903 2.009 27.827
CQ(重庆) 399.64 68.133 14738 165.694 1.855 24.246
XA(西安) 229.57 54.738 8406 120.110 1.138 28.340
现在对1993年的全国19个大城市的6项观测数据进行主成分分析。

SAS程序如下:
data cities93;
input city $ z1-z6;
cards;
BJ 863.50 318.221 30640 532.864 13.706 144.756
TJ 536.10 153.655 18217 227.420 66.030 65.080
SY 402.45 73.508 12729 171.266 2.700 41.281
DL 369.45 84.975 18914 135.393 60.634 24.948
CC 238.51 44.537 5671 83.077 0.487 24.897
HB 210.28 57.690 6045 128.100 5.437 31.240
SH 1511.61 519.595 25708 624.306 139.772 154.346
NJ 325.68 77.150 8113 135.070 9.578 36.403
HZ 424.71 58.528 9082 149.107 1.988 41.949
FZ 228.20 45.684 1643 77.716 10.300 24.416
XM 137.83 40.215 1455 53.334 13.332 14.581
JN 270.76 45.406 5400 101.542 0.392 19.440
QD 379.40 68.193 10254 111.620 44.515 26.239
WH 357.23 86.988 12031 170.550 3.660 36.305
GZ 740.84 140.759 24083 303.009 137.154 92.097
SZ 413.54 132.929 2052 160.513 136.915 50.177
CD 418.63 70.529 11074 144.903 2.009 27.827
CQ 399.64 68.133 14738 165.694 1.855 24.246
XA 229.57 54.738 8406 120.110 1.138 28.340
;
proc standard data=cities93 out=a mean=0 std=1;
var z1-z6;
proc princomp data=a out=score;
var z1-z6;
proc print data=score(drop=z1-z6);
run;
部分输出结果如下:
结果一:相关阵的特征值及主分量贡献率:
Eigenvalues of the Correlation Matrix
Eigenvalue Difference Proportion Cumulative
1 4.93348104 4.25641047 0.822
2 0.8222
2 0.67707058 0.39085676 0.1128 0.9351
3 0.28621382 0.21243318 0.0477 0.9828
4 0.07378064 0.04856376 0.0123 0.9951
5 0.02521688 0.02097984 0.0042 0.9993
6 0.00423704 0.000
7 1.0000
结果二:相关阵的特征向量(即各主分量的组合系数)
The SAS System 18:19 Friday, November 23, 2002 8 The PRINCOMP Procedure
Eigenvectors
Prin1 Prin2 Prin3 Prin4 Prin5 Prin6
z1 0.440097 0.025954 -.159319 -.597376 -.640675 -.113732 z2 0.433725 -.007878 -.438357 -.248460 0.689352 -.287621 z3 0.381275 -.370092 0.810739 -.121305 0.179096 -.116506 z4 0.441793 -.192277 -.156615 0.163419 0.032094 0.845923 z5 0.293619 0.902145 0.282948 0.086674 0.072042 0.084618 z6 0.437532 -.107054 -.143442 0.729709 -.275742 -.409903 结果三:各个城市在各主成分的得分值:
The SAS System 18:19 Friday, November 23, 2002 9
Obs city Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 1 BJ 4.16150 -1.88335 0.01643 0.60137 0.12832 0.01356
2 TJ 1.05471 0.19955 0.49100 0.05904 0.12434 -0.12704
3 SY -0.47665 -0.56422 0.11196 -0.04089 -0.12898 0.01124
4 DL -0.14423 0.28869 1.10978 -0.32879 0.32630 -0.03075
5 CC -1.5905
6 -0.1446
7 -0.24343 0.03694 -0.02420 -0.09788
6 HB -1.33266 -0.15074 -0.28399 0.23110 0.09193 0.07473
7 SH 6.70397 0.49659 -0.96393 -0.49704 0.01060 -0.01087
8 NJ -0.90278 -0.18263 -0.21679 0.04839 -0.01394 -0.04984
9 HZ -0.73002 -0.38548 -0.18102 -0.01214 -0.35107 -0.04342
10 FZ -1.74874 0.21761 -0.57126 0.11506 -0.06662 -0.04974
11 XM -2.06669 0.33109 -0.44517 0.10129 0.14905 -0.03399
12 JN -1.55961 -0.14105 -0.28990 -0.10171 -0.04958 0.05279
13 QD -0.73876 0.41256 0.25525 -0.21686 -0.01551 -0.04803
14 WH -0.57326 -0.50645 0.04086 -0.06259 0.06310 0.05287
15 GZ 2.49861 1.06497 1.22936 0.30773 -0.31199 0.02199
16 SZ 0.12001 2.30772 -0.41712 0.34940 0.09648 0.08498
17 CD -0.76976 -0.43164 0.02601 -0.31648 -0.12925 0.02211
18 CQ -0.61603 -0.61570 0.39074 -0.37103 0.00315 0.13839
19 XA -1.28904 -0.31284 -0.05878 0.09719 0.09787 0.01889
结果解释:
由结果一可知第一主成分和第二主成分的累计贡献率达到了93.51%,即这
两个主成分提取了Z1、Z2、…Z6中93.51%的信息,故对这两个主成分作认真分
析,由结果二很容易写出这两个主成分的表达式:
prin1=0.440097z1+0.433725z2+0.381275z3+0.441793z4+0.293619z5+0.43
7532z6
prin2=0.025954z1-0.007878z2-0.370092z3-0.192277z4+0.902145z5-0.10
7054 z6
可以看出:
第一主成分的各个系数都是正的,而且数值相差不多。

如果各个变量的数值
都增加,则第一主成分数值也会增加。

而这正说明城市的规模较大、效益较高。

从各个指标的具体含义可以看出,第一主成分代表的是各城市的“综合经济实力”。

其数值越大,代表综合经济实力越强。

当然,更细致一些说,由于Z5的系
数明显较其他各项要小,这就是说,Z5(外贸出口总额)对“综合经济”的贡献
要稍小些。

第二主成分中, Z5的系数高达0.9021,换言之,如果外贸出口强劲,则第
二主成分取值一定变大,反之,当外贸出口较弱者,则第二主成分会取较小的值。

因此可以说,第二主成分是“外向型经济”的度量,其数值取得越大,外向型经
济越强。

从结果三各个城市的得分情况来看,这两个主成分的结果含义是准确清晰
的。

在第一主成分中,得分最高的是上海,得分为6.70397,第二名是北京,得
分4.16150,第三名是广州,得分2.49861,第四名是天津,得分为1.05471,……
这与各城市综合经济实力的实际状况是一致的。

在第二主成分中,得分最高的是深圳,得分2.30772,第二名是广州,得分
1.06497,北京得分最低,为-1.88335,这与这些城市的对外开放程度是一致的。

至于北京为何名列倒数第一(对外开放最差),这可以从外贸出口总额数看出,北京总的经济实力较强,但外贸出口总额确实落在很多城市之后了。

例5.2 一项调查威斯康星的麦迪逊地区各区域关于总人口(千)、受教育年限(中位数)、总就业数(千)、保健服务业就业数(千)、家庭收入(万美元)五个社会经济变量的信息如下表:
地区总人口受教育年限总就业数保健服务业就业数家庭收入
1 5.935 14.
2 2.265 2.27 2.91
2 1.52
3 13.1 0.597 0.75 2.62
3 2.599 12.7 1.237 1.11 1.72
4 4.009 15.2 1.649 0.81 3.02
5 4.687 14.7 2.312 2.50 2.22
6 8.044 15.6 3.641 4.51 2.36
7 2.766 13.3 1.244 1.03 1.97
8 6.538 17.0 2.618 2.39 1.85
9 6.451 12.9 3.147 5.52 2.01
10 3.314 12.2 1.606 2.18 1.82
11 3.777 13.0 2.119 2.83 1.80
12 1.530 13.8 0.798 0.84 4.25
13 2.768 13.6 1.336 1.75 2.64
14 6.585 14.9 2.763 1.91 3.17
试作主成分分析
SAS程序
DATA CRIME;
INPUT N y1-y5;
CARDS;
1 5.935 14.
2 2.265 2.27 2.91
2 1.52
3 13.1 0.597 0.75 2.62
3 2.599 12.7 1.237 1.11 1.72
4 4.009 15.2 1.649 0.81 3.02
5 4.687 14.7 2.312 2.50 2.22
8.044 15.6 3.641 4.51 2.36
7 2.766 13.3 1.244 1.03 1.97
8 6.538 17.0 2.618 2.39 1.85
9 6.451 12.9 3.147 5.52 2.01
10 3.314 12.2 1.606 2.18 1.82
11 3.777 13.0 2.119 2.83 1.80
12 1.530 13.8 0.798 0.84 4.25
13 2.768 13.6 1.336 1.75 2.64
14 6.585 14.9 2.763 1.91 3.17
;
PROC PRINCOMP cov OUT=C;
run;
PROC PLOT;
PLOT PRIN2*PRIN1=N;
RUN;
结果输出
Eigenvalues of the Covariance Matrix
(协方差矩阵的特征值)
Eigenvalue Difference Proportion Cumulative
(特征值)(相邻特征值差)(贡献率)(累积贡献率)
1 6.93107360 5.14592925 0.7413
0.7413
2 1.78514434 1.39549442 0.1909
0.9323
3 0.38964992 0.16012100 0.0417
0.9739
4 0.22952892 0.21537393 0.0245
0.9985
5 0.01415498 0.0015
1.0000
The PRINCOMP Procedure
Eigenvectors
(主成分、特征向量)
Prin1 Prin2 Prin3 Prin4 Prin5
y1 0.781208 0.070872 0.003657 -.541710 -.302040
y2 0.305649 0.763873 -.161817 0.544799 -.009280
y3 0.334448 -.082908 0.014841 -.051016 0.937255
y4 0.426008 -.579458 0.220453 0.636013 -.172145
y5 -.054354 0.262355 0.961760 -.051276 0.024583
1).主成分的个数

p p i i =∑=1λ 称p k
λ为样本主成分k Z 的贡献率;又称p
m
λλ +1为样本主成分m Z Z Z ,...,2,1)(p m <的累计贡献率。

一般地当
%851>+p m λλ 则取前m 主成
分m Z Z Z ,...,2,1,椐经验m 很小出现大于3。

此例中,第一主成分的贡献率74.1%。

前两个主成分的累积贡献率达93.2%,因此,前两个主成分较好地综合了样本方差,并对五个变量起压缩和代表作用。

2).主成分的解释
此例中,第一主成分实质上是前四个变量的加权平均,第二主成分看出受教育年限、家庭收入与保健服务业就业数的加权平均形成强烈反差。

例5.3 应用相关阵进行主成分分析
在实际问题中,不同的变量往往有不同的量纲,而通过∑来求主分量首先优先照顾方差)(ii σ大的变量,有时会造成不合理的结果,为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将变量标准化,即令:
i i i i i i i X X Var X E X X σμ-=-=')
()( (i=1,2,…,p ) 这时标准化后的随机向量T p
X X X X ),,,(21'''=' 的协差阵'∑就是原随机向量X 的相关阵R ,这样,从标准化后的变量的协差阵出发来进行主分量分析就变成了分析原随机变量的相关阵。

我们应用主成分分析法来解决服装定型分类问题,介绍应用相关阵进行主成分分析的SAS 过程,各变量的相关矩阵已知。

为解决服装定型分类问题,对128个成年男子的身材进行测量,每人各测得16项指标:身高(X1)、坐高(X2)、胸围(X3)、头高(X4)、裤长(X5)、下档(X6)、手长(X7)、领围(X8)、前胸(X9)、后背(X10)、肩厚(X11)、肩宽(X12)、袖长(X13)、肋围(X14)、腰围(X15)、和腿肚(X16)。

16项指标的相关阵R 见以下SAS 程序的数据行,由相关阵为实对称距阵,数据行只给出相关阵的上三角部分,下半部分用缺失值代替。

由相关阵出发来进行主分量分析的SAS 程序如下:
data a (type=corr);/建立数据集a ,并由数据集选项type 指定该数据集的类型为相关阵/
input _name_ $ x1-x16;
_type_=’corr ’;/设置指定类型的自动变量_type_的值为’corr ’,说明数
据行给出的数据为相关系数,此语句可以不要/
cards;
/* x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 */
x1
1.0 .79 .36 .96 .89 .79 .76 .26 .21 .26 .07 .52 .77 .25 .
51 .27
x2 .
1.0 .31 .74 .58 .58 .55 .19 .07 .16 .21 .41 .47 .17 .35 .16
x3 . .
1.0 .38 .39 .30 .35 .58 .28 .33 .33 .35 .41 .64 .58 .5
1
x4 . . .
1.0 .90 .78 .75 .25 .20 .22 .08 .53 .79 .27 .57 .26
x5 . . . . 1.0 .79 .74 .25 .18 .23 -.02 .48 .79 .27 .51 .23
x6 . . . . .
1.0 .73 .18 .18 .23 .00 .28 .69 .14 .26 .00
x7 . . . . . .
1.0 .24 .29 .25 .10 .44 .67 .16 .38 .12
x8 . . . . . . . 1.0 -.04 .49 .44 .30 .32 .51 .51 .38
x9 . . . . . . . . 1.0 -.34 -.16 -.05 .23 .21 .15 .18
x10. . . . . . . . .
1.0 .23 .50 .34 .15 .29 .16
x11. . . . . . . . . .
1.0 .24 .10 .31 .28 .31
x12. . . . . . . . . . .
1.0 .26 .17 .41 .18
x13. . . . . . . . . . . .
1.0 .26 .50 .24
x14. . . . . . . . . . . . .
1.0 .63 .50
x15. . . . . . . . . . . . . .
1.0 .65
x16. . . . . . . . . . . . . . . 1.0 ;
proc print;
run;
proc princomp data=a(type=corr) n=4;/调用princomp过程,指定数据集a
的类型为相关阵,并由n=4规定输出前4
个主分量的有关信息/
var x1-x16;
run;
SAS的输出结果:
Eigenvalues of the Correlation Matrix
Eigenvalue Difference Proportion Cumulative
1 6.99170909 4.40129898 0.4370 0.4370
2 2.59041011 0.95978649 0.1619 0.5989
3 1.63062362 0.77554359 0.1019 0.7008
4 0.85508003 0.0534 0.7542
The SAS System 21:12 Saturday, November 27, 1999 15
The PRINCOMP Procedure
Eigenvectors
Prin1 Prin2 Prin3 Prin4 x1 0.345194 -.197525 -.011864 0.124925
x2 0.266677 -.147496 -.087805 0.504966
x3 0.239562 0.311870 0.155807 -.159610
x4 0.346259 -.186674 0.007117 0.117179
x5 0.330791 -.195065 0.020105 -.096149
x6 0.284223 -.278878 -.028901 -.123411
x7 0.296935 -.198372 -.002340 -.055055
x8 0.191013 0.372612 -.136449 -.233184
x9 0.086065 -.078924 0.621079 -.095894
x10 0.156408 0.184613 -.515663 -.441193
x11 0.097291 0.344483 -.201297 0.548772
x12 0.222046 0.053567 -.329496 0.115765
x13 0.307430 -.120430 0.039834 -.247731
x14 0.182449 0.368495 0.262864 -.055054
x15 0.268766 0.270015 0.134415 0.022620
x16 0.164014 0.357849 0.241811 0.158125
习题
1.对30个小麦品种观测了以下10项指标(变量):抽穗期、株高、单株穗期、主穗长、主穗粒数、穗下节长、主穗小穗数、每小穗粒数、单株粒重及百粒重。

得原始样本观测数据如表16.1.1,实验材料取自1986年北京农业大学小麦实验地。

由样本协方差阵进行主成分分析。

(引自文献[12]P203)
INPUT N$ X1-X10 @@;
CARDS;
1 13 80.75 8.38 9.81 53.38 30.25 19.63 2.7
2 16.69 4.81
2 12 110.25 11.10 9.70 45.40 40.95 18.10 2.51 14.62 3.59
3 13 93.25 9.62 11.31 50.63 38.31 18.75 2.7 16.1 4.67
4 12 65.2
5 6.1 8.05 51.1 21.35 18.5 2.7
6 9.61 4.18
5 14 92 10 11.9 40.3 41.25 18.44 2.19 14.37 4.31
6 13 86.25 9.9 10.59 42 34.41 19.3 2.18 15.41 3.2
7 10 75 7.6 9.1 52.3 27.85 19 2.75 11.3 4.02
8 10 77.25 10.63 8.06 50.88 31.75 17.88 2.85 11.5 3.13
9 12 75.25 5.8 8.72 48.3 30.21 17.5 2.76 11.97 4.67
a 15 72.5 12.8 8.68 37 29.88 17.8 2.03 12.78 3.18
b 14 87 8.2 10.07 50.9 37.78 19.2 2.65 14.41 3.44
c 9 80.25 8.9 9.6 41.8 33.25 17.3 2.42 10.82 4.11
d 8 79.75 9.11 9.28 40.11 33.5 17.22 2.33 11.43 4.17
e 9 80.75 5.4 10.63 44.2 30.41 18.5 2.39 9.42 4.46
f 10 69.75 14.8 7.01 40.3 29.45 17.8 2.26 13.74 3.65
g 9 78.75 7.7 8.14 50.71 30.86 19.14 2.65 13.71 4.25
h 5 75.75 5.67 10.48 45.67 27.52 19.17 2.38 8.43 4.14
i 11 96.5 9 10.57 48 43.43 18.43 2.65 12.54 3.95
j 11 72 14.67 9.78 54.67 32.12 17.5 3.12 14.3 4.03
k 12 66 6.7 8.15 49.2 24.4 18.6 2.51 12.46 4.28
l 8 79.25 8.2 8.84 37 34.3 16.8 2.20 11.94 3.78
m 10 76 8.1 9.28 47.1 31.71 16.9 2.79 13.28 4.47
n 11 71.75 7.8 10.34 46.6 31.26 18.6 2.51 12.46 4.28
o 11 72.5 8.7 8.04 41 30.17 17.7 2.32 12.25 4.21
p 9 95.75 8.1 9.82 31.5 38.38 15.7 2.01 14.3 4.67
q 10 79.75 6.75 10.56 57 33.69 19.13 2.98 12.56 4.68
r 10 73 5.67 8.94 45.22 36.48 17.33 2.61 7.11 4.26
s 9 75.5 11.25 8.81 39.63 29.69 17.5 2.26 14.24 4.17
t 8 75.75 5.1 6.15 47.6 23.55 18.1 2.63 7.21 3.55
u 9 74.25 21 9.35 49.5 30.23 16.75 2.96 17.6 3.36 ;
PROC PRINCOMP DATA=D1 OUT=D2 COV;
OPTION PS=25;
PROC PLOT;
PLOT PRIN2*PRIN1=N;
RUN;
2.在肉用仔鸡饲养高利益日粮营养浓度研究中将日粮营养水平设计为两个能量(ME)水平,两个能量蛋白(ME/CP)比水平和三个含硫氨基酸(SAA)水平,其他营业液一般要求,因此日粮共有2*2*3=12种,饲养的骓鸡选用一日龄Abbor Acres(AA)商品肉用骓鸡,试验分12组,每组喂养540只,饲养8周后售出,测定指标共有10项,测定数据列于下表,试作主成分分析。

INPUT N$ X1-X10 @@;
CARDS;
a 3200 146 4.24 2287.7 2252.7 4274.6 1.90 11.44 5.95 5.49
b 3200 146 3.56 2231.0 2196.6 4199.1 1.91 11.16 5.95 5.24
c 3200 146 2.89 2122.4 2087.2 4270.6 2.05 10.61 5.87 4.73
d 3200 164 4.24 2249 2213.6 4309.1 1.95 11.25 5.52 5.72
e 3200 164 3.56 2221.7 2186.8 4292.6 1.93 11.11 5.32 5.79
f 3200 164 2.89 1976 1940.9 4213.2 2.17 9.88 5.16 4.72
g 3000 146 4.24 2118.2 2083 4260.3 2.05 10.59 4.83 5.76
h 3000 146 3.56 2148.2 2114.1 4374.7 2.07 10.74 4.82 5.92
i 3000 146 2.89 1967.8 1933.9 4385.3 2.27 9.84 4.66 5.18 j 3000 164 4.24 2076.7 2041.5 4241.2 2.03 10.38 4.39 5.99 k 3000 164 3.56 2140.6 2111.2 4159.9 1.97 10.73 4.38 6.35 l 3000 164 2.89 1955.7 1920.1 4219.7 2.2 9.78 4.3 5.48 ;
PROC PRINCOMP OUT=D2;
OPTION PS=25;
PROC PLOT;
PLOT PRIN2*PRIN1=N;
RUN;。

相关文档
最新文档