SAS使用学习笔记(对应分析)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SAS使用学习笔记(对应分析)
1对应分析是不仅研究变量之间的关系、还要研究样品之间的关系。
它通过在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。
2对应分析例子
下面是某研究者收集到的资料,试分析各种基因频率与民族之间的关系。
各民族下面的小数是44种基因出现的频率。
基因型(JY)藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H)。
程序:
DATA b;
INPUT jy $ 1-3 z 6-11 n 14-19 y 22-27 h 30-35;
cards;
A1 0.0308 0.01800.11900.0149
A2 0.3333 0.10700.14800.3492
A3 0.0204 0.01900.10100.0176
A9 0.3037 0.27900.15600.1414
A100.0409 0.01800.03900.0313
A110.1354 0.42200.12600.2977
A280.0000 0.01800.08300.0094
A300.0413 0.00000.00000.0217
A310.0518 0.03700.02200.0121
A320.0000 0.01900.03900.0013
A330.0000 0.06700.08300.0608
B5 0.2828 0.11800.13400.0825
B7 0.0000 0.01900.08000.0244
B8 0.0102 0.01180.04500.0094
B120.0102 0.03700.06600.0121
B130.0102 0.07700.00600.0650
B140.0000 0.00000.00600.0013
B150.1923 0.25400.09600.1092
B180.0050 0.02800.02200.0000
B270.1067 0.00000.02600.0204
B350.0626 0.05700.14800.0342
B370.0102 0.01800.00900.0067
B380.04650.0470 0.00300.0015
B390.01020.0000 0.00900.0176
B460.01020.00900.00000.1813
B480.05720.15000.00300.0108
B500.01020.01800.03700.0000
B530.00500.0000 0.00600.0000
B540.01530.00000.00000.0176
B550.05720.02800.02600.0217
B560.01020.00900.00600.0040
B570.00500.01800.03900.0341
B580.00000.06700.03300.0139
B600.06260.02800.02200.0723
B610.08990.00000.08300.1080
B700.00500.00000.00800.0000
C1 0.08990.03700.02300.1716
C2 0.02040.00000.07300.0397
C3 0.17980.10700.08300.3269
C4 0.16510.07700.13400.0495
C5 0.00000.00900.01600.0054
C6 0.02560.24500.04500.0081
C7 0.17120.21800.11900.1152
C8 0.00500.00000.00400.0027
;
run;
PROC CORRESP data=b OUTC=ccc;
VAR z n y h;
LABEL z='藏族'
n='尼泊尔'
y='印度'
h='汉族';
ID jy;
RUN;
DATA ccc;
SET ccc;
X=dim1;
Y=dim2;
XSYS ='2';
YSYS ='2';
TEXT =jy;
SIZE =2;
LABEL X='Dimension 1'
Y='Dimension 2';
keep X Y TEXT XSYS YSYS SIZE;
RUN;
PROC GPLOT DATA=ccc;
SYMBOL1V=#;
AXIS1LENGTH=5 IN ORDER=-1.3 TO 1.3 BY 0.2;
AXIS2LENGTH=5 IN ORDER=-1.3 TO 1.3 BY 0.2;
PLOT Y*X=1 / ANNOTATE=ccc FRAME HAXIS=AXIS1
VAXIS=AXIS2 HREF=0VREF=0;
RUN;
输出:
The CORRESP Procedure
Inertia and Chi-Square Decomposition
Singular Principal Chi- Cumulative
Value Inertia Square Percent Percent 8 16 24 32 40
----+----+----+----+----+---
0.42302 0.17895 1.83072 41.61 41.61 **************************
0.39266 0.15418 1.57736 35.85 77.46 **********************
0.31137 0.09695 0.99184 22.54 100.00 **************
Total 0.43007 4.39992 100.00
Degrees of Freedom = 129
SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP Procedure
Row Coordinates
Dim1 Dim2
A1 0.5878 0.8300
A2 -0.4233 0.1209
A3 0.5708 0.7845
A9 0.0741 -0.1562
A10 -0.0466 0.2818
A11 0.0191 -0.3738
A28 0.8269 0.8844
A30 -0.7954 0.0516
A31 0.1126 -0.1366
A32 0.9506 0.5206
A33 0.2931 0.1666
B5 -0.0085 0.0766
B7 0.5508 0.7576
B8 0.5282 0.6647
B12 0.6453 0.3736
B13 -0.1439 -0.5749
B14 0.6310 1.2240
B15 0.1193 -0.3016
B18 0.8250 -0.1198
B27 -0.3381 0.2782
B35 0.4306 0.4728
B37 0.2494 -0.2481
B38 0.1990 -0.6104
B46 -1.2499 0.0376
B48 0.4093 -0.9132
B50 0.7714 0.4510
B53 0.3664 0.8090
B54 -0.9706 0.0684
B55 -0.0427 0.0207
B56 0.1278 -0.1051
B57 0.0754 0.3742
B58 0.6482 -0.3801
B60 -0.4505 0.0137
B61 -0.3745 0.4819
B70 0.4748 0.9100
C1 -0.7041 0.0091
C2 0.0968 0.8397
C3 -0.5193 0.0178
C4 0.1452 0.2307
C5 0.5711 0.3791
C6 0.7305 -0.8444
C7 0.1169 -0.1805
C8 -0.1612 0.5353
SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP Procedure
Summary Statistics for the Row Points
Quality Mass Inertia
A1 0.9966 0.0179 0.0431
A2 0.9583 0.0916 0.0431
A3 0.9744 0.0154 0.0347
A9 0.3838 0.0860 0.0156
A10 0.8715 0.0126 0.0027
A11 0.6324 0.0959 0.0494
A28 0.9068 0.0108 0.0406
A30 0.5695 0.0062 0.0160
A31 0.1562 0.0120 0.0056
A32 0.9073 0.0058 0.0174
A33 0.2820 0.0206 0.0193
B5 0.0274 0.0603 0.0304
B7 0.7996 0.0121 0.0308
B8 0.9666 0.0075 0.0129
B12 0.9043 0.0122 0.0175
B14 0.9031 0.0007 0.0035
B15 0.8864 0.0637 0.0176
B18 0.9645 0.0054 0.0090
B27 0.1832 0.0150 0.0364
B35 0.9998 0.0295 0.0281
B37 0.9998 0.0043 0.0012
B38 0.5599 0.0096 0.0164
B39 0.9636 0.0036 0.0040
B46 0.6708 0.0196 0.1062
B48 0.9847 0.0216 0.0511
B50 0.9990 0.0064 0.0118
B53 0.7205 0.0011 0.0027
B54 0.9637 0.0032 0.0073
B55 0.0150 0.0130 0.0045
B56 0.3142 0.0029 0.0006
B57 0.3852 0.0094 0.0083
B58 0.7578 0.0111 0.0193
B60 0.9902 0.0181 0.0086
B61 0.9992 0.0275 0.0238
B70 0.8576 0.0013 0.0036
C1 0.9447 0.0314 0.0383
C2 0.9242 0.0130 0.0234
C3 0.9069 0.0681 0.0471
C4 0.3959 0.0416 0.0182
C5 0.6915 0.0030 0.0047
C6 0.9669 0.0316 0.0949
C7 0.9160 0.0609 0.0072
C8 0.7360 0.0011 0.0011
SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP Procedure
Partial Contributions to Inertia for the Row Points
Dim1 Dim2
A1 0.0345 0.0798
A2 0.0918 0.0087
A3 0.0281 0.0616
A9 0.0026 0.0136
A10 0.0002 0.0065
A11 0.0002 0.0869
A28 0.0412 0.0547
A30 0.0218 0.0001
A31 0.0009 0.0015
A32 0.0293 0.0102
A33 0.0099 0.0037
B5 0.0000 0.0023
B7 0.0204 0.0449
B8 0.0116 0.0214
B12 0.0285 0.0111
B13 0.0018 0.0332
B14 0.0016 0.0069
B15 0.0051 0.0376
B18 0.0204 0.0005
B27 0.0096 0.0075
B35 0.0306 0.0428
B37 0.0015 0.0017
B38 0.0021 0.0231
B39 0.0059 0.0040
B46 0.1711 0.0002
B48 0.0202 0.1168
B50 0.0212 0.0084
B53 0.0008 0.0046
B54 0.0169 0.0001
B55 0.0001 0.0000
B56 0.0003 0.0002
B57 0.0003 0.0085
B58 0.0261 0.0104
B60 0.0205 0.0000
B61 0.0215 0.0414
B70 0.0016 0.0068
C1 0.0871 0.0000
C2 0.0007 0.0595
C3 0.1026 0.0001
C4 0.0049 0.0144
C5 0.0054 0.0028
C6 0.0944 0.1463
C7 0.0047 0.0129
C8 0.0002 0.0021
SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP Procedure
Indices of the Coordinates that Contribute Most to Inertia for the Row Points
Dim1 Dim2 Best
A1 2 2 2 A2 1 0 1 A3 2 2 2 A9 0 0 2 A10 0 0 2 A11 0 2 2 A28 2 2 2 A30 1 0 1 A31 0 0 2 A32 1 0 1 A33 0 0 1 B5 0 0 2 B7 0 2 2 B8 0 0 2 B12 1 0 1 B13 0 2 2 B14 0 0 2 B15 0 2 2 B18 0 0 1 B27 0 0 1 B35 2 2 2 B37 0 0 2 B38 0 0 2 B39 0 0 1 B46 1 0 1 B48 0 2 2 B50 0 0 1 B53 0 0 2 B54 0 0 1 B55 0 0 1 B56 0 0 1 B57 0 0 2 B58 1 0 1 B60 0 0 1 B61 2 2 2 B70 0 0 2 C1 1 0 1 C2 0 2 2 C3 1 0 1 C4 0 0 2 C5 0 0 1 C6 2 2 2 C7 0 0 2
C8 0 0 2
SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP Procedure
Squared Cosines for the Row Points
Dim1 Dim2
A1 0.3329 0.6637
A2 0.8860 0.0723
A3 0.3373 0.6371
A9 0.0705 0.3133
A10 0.0232 0.8483
A11 0.0016 0.6307
A28 0.4230 0.4838
A30 0.5671 0.0024
A31 0.0632 0.0931
A32 0.6979 0.2094
A33 0.2131 0.0689
B5 0.0003 0.0270
B7 0.2765 0.5231
B8 0.3742 0.5924
B12 0.6773 0.2270
B13 0.0341 0.5446
B14 0.1896 0.7135
B15 0.1198 0.7666
B18 0.9445 0.0199
B27 0.1092 0.0739
B35 0.4533 0.5465
B37 0.5025 0.4972
B38 0.0538 0.5061
B39 0.6037 0.3599
B46 0.6702 0.0006
B48 0.1647 0.8200
B50 0.7445 0.2545
B53 0.1227 0.5979
B54 0.9589 0.0048
B55 0.0122 0.0029
B56 0.1874 0.1268
B57 0.0150 0.3701
B58 0.5639 0.1939
B60 0.9893 0.0009
B61 0.3762 0.6230
B70 0.1835 0.6741
C1 0.9445 0.0002
C2 0.0121 0.9121
C3 0.9058 0.0011
C4 0.1123 0.2836
C5 0.4801 0.2115
C6 0.4139 0.5530
C7 0.2707 0.6453
C8 0.0612 0.6748
SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP Procedure
Column Coordinates
Dim1 Dim2
藏族 -0.2025 0.0083
尼泊尔 0.3658 -0.5460
印度 0.4529 0.5754
汉族 -0.5915 0.0430
Summary Statistics for the Column Points
Quality Mass Inertia
藏族 0.1413 0.2629 0.1777
尼泊尔 0.9737 0.2630 0.2713
印度 0.9815 0.2274 0.2888
汉族 0.7697 0.2468 0.2622
Partial Contributions to Inertia for the Column Points
Dim1 Dim2
藏族 0.0602 0.0001
尼泊尔 0.1967 0.5086
印度 0.2606 0.4883
汉族 0.4825 0.0030
Indices of the Coordinates that Contribute Most to Inertia for the Column Points
Dim1 Dim2 Best
藏族 0 0 1
尼泊尔 2 2 2
印度 2 2 2
汉族 1 0 1 Squared Cosines for the Column Points
Dim1 Dim2
藏族 0.1411 0.0002
尼泊尔 0.3016 0.6721
印度 0.3754 0.6060
汉族 0.7657 0.0040
说明:
根据Column Coordinates
Dim1 Dim2
藏族 -0.2025 0.0083
尼泊尔 0.3658 -0.5460
印度 0.4529 0.5754
汉族 -0.5915 0.0430,我们可以得到:
藏族=-0.202490Dim1+0.008300Dim2尼泊尔= 0.365818Dim1-0.546045Dim2
印度= 0.452903Dim1+0.575439Dim2汉族=-0.591500Dim1+0.042981Dim2
在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个变量就是1个点,如Z(藏族)点的坐标为(-0.202490,0.008300)。
显然,Z(藏族)、H(汉族)两个点在第2象限内;N(尼泊尔)点在第4象限内、Y(印度)点在第1象限内。
在Summary Statistics for the Column Points
Quality Mass Inertia
藏族0.1413 0.2629 0.1777
尼泊尔0.9737 0.2630 0.2713
印度0.9815 0.2274 0.2888
汉族0.7697 0.2468 0.2622
中Quality为每个变量上两个公因子贡献率之和(%),若此值接近于1,则表明对应的变量所包含的信息由两个公因子就可很好地反映出来;Mass为原始数据中各列数据之和占总合计的百分比(%);Inertia为每个变量对总特征值0.43007贡献的百分比(%),由此列数值可看出∶后三个民族贡献的百分比十分接近。
在Partial Contributions to Inertia for the Column Points
Dim1 Dim2
藏族 0.0602 0.0001
尼泊尔 0.1967 0.5086
印度 0.2606 0.4883
汉族 0.4825 0.0030
中,这是每个公因子上每个变量的贡献率(%),各列数值之和为1。
显然,汉族对第1公因子贡献最大;尼泊尔、印度这2个民族对第2公因子贡献最大。
在Squared Cosines for the Column Points
Dim1 Dim2
藏族 0.1411 0.0002
尼泊尔 0.3016 0.6721
印度 0.3754 0.6060
汉族 0.7657 0.0040
中,这是每个变量上两个公因子各自的贡献率,各行数值之和应近似为1。
由各行数值可看出:尼泊尔、印度这2个民族的信息几乎完全可由这2个公因子反映出来;而藏族的信息则不能很好地由这2个公因子来反映。
在Partial Contributions to Inertia for the Row Points中,B46、C3对第1公因子贡献最大;B48、C6对第2公因子贡献最大。
在Row Coordinates中,它们的点所对应的坐标(dim1,dim2)分别为:B46(-1.24991,0.03763)、C3(-0.51926,0.01783)、B48(0.40926,-0.91316)、C6(0.73052,-0.84440)。
显然,B46与C3这两点落在第2象限内、且距离很近;B48与C6这两点落在第4象限内、且距离较近。
再结合上面关于“Column Coordinates”部分的解释可知:藏族与汉族接近主要表现在B46与C3两种基因型上有较高的一致性(因为这4点都落在第2象限内、且距离很近);而尼泊尔族与印度族接近主要表现在B48与C6两种基因型上有较高的一致性(因为这4点都落在第4象限内、且距离较近)。