实验报告七-SAS典型相关分析

合集下载

SAS软件应用之典型相关分析

SAS软件应用之典型相关分析

SAS软件应用之典型相关分析典型相关分析(Canonical Correlation Analysis,CCA)是一种多变量统计分析方法,用于研究两组变量之间的关系以及它们之间的线性组合。

SAS软件提供了强大的工具和函数来执行典型相关分析,包括PROC CANCORR和CORRCAN。

PROCCANCORR是SAS中执行典型相关分析的主要过程。

它可以分析两组变量之间的关系,并计算它们之间的典型相关系数以及相关变量之间的线性组合得分。

以下是一个使用PROCCANCORR进行典型相关分析的示例代码:```/* 导入数据集data1和data2 */data data1;input var1 var2 var3;datalines;123456789;run;data data2;input var4 var5 var6;datalines;101112131415161718;run;/*运行PROCCANCORR进行典型相关分析*/proc cancorr data=data1 data=data2 out=results;var var1 var2 var3;with var4 var5 var6;run;/*输出典型相关系数和相关变量的得分*/proc print data=results;run;```在上述示例中,我们首先导入两个数据集`data1`和`data2`,其中`data1`包含三个自变量(`var1`,`var2`,`var3`),`data2`包含三个因变量(`var4`,`var5`,`var6`)。

然后,我们使用PROC CANCORR指定自变量和因变量,并将结果保存在名为`results`的输出数据集中。

最后,我们使用PROC PRINT打印结果数据集。

在输出结果中,我们可以查看典型相关系数以及自变量和因变量的得分。

典型相关系数表示两组变量之间的相关程度,取值范围为-1到1、得分表示原始变量的线性组合结果,可以用于分析变量之间的关系。

SAS与统计分析实验报告

SAS与统计分析实验报告

SAS与统计分析实验报告⼀、实习⽬的:1、了解SAS系统的基本知识及操作⽅法。

2、学会运⽤SAS系统进⾏数据的处理与分析。

⼆、实习⼯具:SAS软件三、实习内容:1、T测验①单组样本均数的T测验例:已知某⼩麦品种的平均株⾼为65cm,施肥后,随机抽取10株⼩麦进⾏测量,得到10株⼩麦株⾼分别为64 cm、66 cm、63 cm、68 cm、70 cm、65 cm、67 cm、68 cm、66 cm、69 cm.试验施肥后平均株⾼与已知的平均株⾼65 cm间的差异显著性。

●假如株⾼变量名为G,SAS程序如下:data whq1;input G@@;cards;64 66 63 68 70 65 67 68 66 69;run;proc ttest data=whq1 ci=none h0=65alpha=0.05;var G;run;●程序说明:过程选项h0=65 指定零假设 ho:u=65,检验抽样总体的均值是否为65,alpha=0.05⽤来指定结果中各统计量可信区间的置信⽔平。

语句var G指定要检验的变量。

●程序运⾏结果:The TTEST ProcedureStatisticsLower CL Upper CLVariable N Mean Mean Mean Std Dev Std Err Minimum Maximum G 10 65.011 66.6 68.189 2.2211 0.7024 63 70T-TestsVariable DF t Value Pr > |t|G 9 2.28 0.0487●结果说明:结果中⾸先给出了输⼊数据集中分析变量的有关统计量,其中包括均数及其可信区间、标准差及其可信区间。

然后给出均数的标准误、观测值最⼤值和最⼩值。

最后,给出单组样本均数⽐较的T检验结果。

本例中t=2.28,对应的P值为0.0487。

根据分析结果可作出结论:施肥后平均株⾼与已知的平均株⾼65 cm有显著差异。

SAS数据分析实验报告

SAS数据分析实验报告

数理与土木工程学院实验报告课程名称:《统计软件SPSS、SAS及实践》实验结果(包括程序代码、程序结果分析)第一题:①读取数据,并创建一个SAS数据集,命名为transaction;data transaction;infile cards dlm=",";input Account_ID Revenue Segment N_var1 C_var1 Date Location Code Amount;cards;10001,5,G1,., ,2014-10-23,CHINA,APP_001,10010002,6,G1,., ,2014-10-23,CHINA,APP_002,11010003,.,G1,., ,2014-10-23,CHINA,APP_003,5010004,10,G2,., ,2014-10-23,CHINA,APP_004,9010005,15,G2,., ,2014-10-23,CHINA,CAN_005,1210006,13,G2,., ,2014-10-23,CHINA,MAN_006,1000010007,.,G2,., ,2014-10-23,CHINA,APP_007,1010008,20,G3,., ,2014-10-23,CHINA,APP_008,10010009,25,G3,., ,2014-10-23,CHINA,APP_009,20010010,.,G3,., ,2014-10-23, ,REJ_010,10000010010,.,G3,., ,2014-10-23, ,REJ_010,10000010010,.,G4,., ,2014-10-23, ,REJ_010,10000010010,.,G5,., ,2014-10-23, ,REJ_010,10000010003,7,G1,., ,2014-10-24,CHINA,MAN_003,5000010004,9,G2,., ,2014-10-24,CHINA,APP_004,9010006,6,G2,., ,2014-10-24,CHINA,MAN_006,100010007,.,G2,., ,2014-10-24,CHINA,APP_007,1010008,8,G3,., ,2014-10-24,CHINA,APP_008,10010009,9,G3,., ,2014-10-24,CHINA,APP_009,20010010,.,G3,., ,2014-10-24,CHINA,APP_010,10010010,10,G4,., ,2014-10-24,CHINA,APP_011,10110010,20,G5,., ,2014-10-24,CHINA,APP_012,102;run;proc transpose data=transaction out=a;var _all_;run;②基于数据集transaction,将变量“Revenue”中的缺失数据用其均值代替;data a;set a;array s(*) aa1-aa2;n=n(of s(*));mean=mean(of s(*));sum=sum( of s(*));do i=1to dim(s);if s(i)=.then s(i)=mean;end;run;proc print;run;③基于②,将取值全部缺失的变量删除。

SAS软件及统计应用教程

SAS软件及统计应用教程

第i特征根 1CCaani2nRi2R
上式可以理解为第i对典型变量表示观测变量总方差 作用的指标,它的值越大说明表示作用越大。
SAS软件与统计应用教程
6. 典型相关系数的标准误
STAT
SECaniR1Cna1ni2R
7. 典型相关系数的假设检验
典型相关系数的假设检验包括对全部总体典型相关系
数的检验和对部分总体典型相关系数的检验。对数据的
前两个典型相关系数比形态指标和机能指标两组间的 任何一个相关系数都大。
SAS软件与统计应用教程
STAT
(2) 典型变量所解释的变异 第二部分是的5个特征根(Eigenvalues),包括:特
征根、相邻两个特征根之差、特征根所占方差信息量的
比例和累积方差信息量的比例。从中可以看出,前两对
典型变量所能解释的变异占总变异(方差)的91.18%, 如图7-4所示。其它三个典型相关变量的作用很小,一 共只解释了总变异的9%,可以不予考虑。
1 ,i j
C( U o i,U j r ) r 0 ,i j C( V o i,V j) r r 0 ,i j
SAS软件与统计应用教程
STAT
2) 同 一 对 典 型 相 关 变 量 Ui 和 Vi 之 间 的 相 关 系 数 为 CanRi,不同对的典型相关变量之间互不相关,即:
Co(U ri,V rj) C0ai nii Rjj
Ui = ai'X* = ai1X1* + ai2X2* + … + aipXp* Vi = bi'Y* = bi1Y1* + bi2Y2* + … + biqYq* i = 1,2,…,m = min(p,q);其中X*,Y*为原变量组

SAS-7

SAS-7

返回总目录目 录第33章 SAS 系统内四种多变量分析程序概述 (3)33.1 四种多变量分析的统计程序 (3)33.2 主成份分析和传统式因子分析的比较.......................................................................4第34章 主成份分析统计程序PROC PRINCOMP (5)34.1 PROC PRINCOMP 程序概述 (5)34.2 如何撰写 PROC PRINCOMP 程序 (5)34.3 范 例.......................................................................................................................7第35章 因子分析统计程序PROC FACTOR .. (18)35.1 因子分析法中的因子一词指什么 (18)35.2 共因子分析法的模型 (18)35.3 PROC FACTOR 程序概述 (18)35.4 因子分析法的历史背景 (19)35.5 如何撰写 PROC FACTOR 程序 (19)35.6 五种合乎语法的输入资料文件形式 (27)35.7 范 例.....................................................................................................................28第36章 典型相关分析统计程序 PROC CANCORR (42)36.1 何谓典型相关 (42)36.2 PROC CANCORR 程序概述 (42)36.3 如何撰写 PROC CANCORR 程序 (42)36.4 范 例.....................................................................................................................47第37章多次元尺度法统计程序PROC MDS (53)37.1 PROC MDS 程序概述 (53)37.2 MDS 程序基本功能的示范 (54)37.3 如何撰写PROC MDS 程序 (56)37.4 范 例 (63)37.5 注 意 事 项 (67)第七部分多变量的分析第33章 SAS 系统内四种多变量分析程序概述33.1 四种多变量分析的统计程序本章将简要地介绍四种多变量分析的统计程序即主成份分析(PRINCOMP)传统式因子分析 (FACTOR)典型相关分析 (CANCORR) 和多次元尺度分析 (MDS)这四种统计程序的功能在于找寻多个变量之间的关系或简化数据的复杂性这些变量并不一定得视为自变量或因变量其中主成份分析传统式因子分析以及多次元尺度分析都是对一组变量作分析而典型相关则是对两组变量作分析SAS 还有其它的统计程序可以执行多变量的统计分析如CATMOD变异数分析回归分析集群分析及鉴别分析等若读者熟悉在SAS 旧版的环境下执行这些程序则建议直接参考附录D 有关这些程序增进的简介下面分别介绍这四种程序 PRINCOMP 程序主成份分析对同一组观察体的多个变量执行主成份分析主成份分析的目的是找出一组变量之间互相依赖的程度将这些线性相关以主成份值表示其分析的结果包括未经标准化及标准化后的主成份值这些主成份值可以代替变量的原始数据进行进一步的分析处理如制图执行回归分析或集群分析值得读者注意的是主成份分析 (Principal Component Analysis) 与主轴因子分析 (Principal Axis Common Factor Analysis) 不是同义词 FACTOR 程序 (传统式因子分析)对同一组观察体内的多个变量执行上述的主成份分析及传统式因子分析因子分析法还附带有因子的坐标转换以取得最大的诠释效果其分析结果可以是标准化的主成份值也可以是传统因子分析的值传统式因子分析的目的在寻求一小群隐藏的变量以解释原变量之间的相关和主成份分析不同的是这一小群隐藏的变量不直接由原变量间的线性组合导出一般国内教科书将因子分析翻译成 "因素分析"因此对本书读者而言这两个名词实系同义词 CANCORR 程序 (典型相关分析)对两组变量执行典型相关分析其分析的结果是典型变量值典型相关分析的目的是藉一小群有最高组间相关的组内变量之线性组合 (又称向量) 来解释并概述两组变量之间的关系构成向量的变量多少并没有限制若某个向量中只含一个变量则典型相关的作用与回归分析或皮尔森相关系数类似第七部分 多变量的分析4 MDS 程序 (多次元尺度分析)MDS 是 Multidimensional Scaling 的简称它代表一系列的分析法其目的在于从一组距离矩阵中找出观察体 (或变量或刺激词)的坐标如此读者可藉图形的视觉效果来检视点与点之间的关系以及潜在向度的意义33.2 主成份分析和传统式因子分析的比较如上所述FACTOR 程序除了涵盖 PRINCOMP 程序并且包括了另外几种常用的因子分析法当读者使用 FACTOR 程序时若不指明用那一种分析法则主成份分析便是 FACTOR 程序的内设值FACTOR 程序产生的主成份值是经过标准化的然而PRINCOMP 程序所产生的主成份值是未经标准化的不过读者也可额外地要求PRINCOMP 算出标准化的主成份值与 FACTOR 程序相比PRINCOMP 程序的优点如下(1) 最适用于变量多但主成份少的大型资料文件可节省电脑处理时间(2) 易于使用(3) 输入资料文件可以是一个净相关系数矩阵或一个净共变异数矩阵与 PRINCOMP 程序相比FACTOR 程序的优点如下(1) 产生的分析结果较 PRINCOMP 程序广泛包括误差值的检定因子坐标转换的角度及特性根由大到小的排列等(2) 包含好几种坐标转换的理论(3) 其输出矩阵较易了解(4) 所涵盖的因子分析法较完全PRINCOMP 程序只有一种分析法即主成份分析法然而 FACTOR 程序内有九种分析法供你选择第34章 主成份分析统计程序PROC PRINCOMP 34.1 PROC PRINCOMP 程序概述读者可用 PRINCOMP 程序对输入资料文件执行主成份分析其输入资料文件可以是原始数据也可以是一个相关系数矩阵或是一个变异数共变异数矩阵输出资料则包括特性根特性向量及(未经) 标准化的主成份值主成份分析是一个多变量的统计程序可用来检定多个数值变量之间的关系主成份分析除了用来概述变量间的关系外还可用来削减回归或集群分析中变量的数目它的主要目的是求出一组变量的线性组合 (即主成份)这些线性组合就是原变量矩阵的特性向量每一个向量的内乘积就是该向量对原变量群能解释的变异数百分比这些特性向量之间应该是彼此线性独立的主成份分析首由皮尔森氏 (Pearson) 于 1901 年提出其后经过赫德林氏 (Hotelling1933) 的发扬有关其应用可见罗氏 (Rao 1964)古氏及隆斯氏 (Cooleyand Lohnes 1971)和干那氏 (Gnanadesikan 1977) 的着作34.2 如何撰写 PROC PRINCOMP 程序PROC PRINCOMP 含六道指令它们的格式如下PROC PRINCOMP选项串V AR变量名称串PARTIAL变量名称串FREQ变量名称WEIGHT变量名称BY 变量名称串一般而言只须用到前两个指令亦即 PROC PRINCOMP 以及 V AR指令 #1 PROC PRINCOMP 选项串有下列十个选项可供选择(1) DATA=输入资料文件名称指明到底对那一个 SAS 资料文件执行 PROC PRINCOMP 的分析这个输入资料文件可以是原始数据也可以是一个相关系数矩阵 (TYPE=CORR 或UCORR)或是一个变异数共变异数矩阵 (TYPE=COV 或 UCOV)或TYPE=FACTOR SSCP ESP 等不同形式的资料文件若省略此选项则 SAS 会自动找出在此程序之前最后形成的资料文件对它执行主成份分析第七部分 多变量的分析6(2) OUT=输出资料文件名称这一个输出资料文件包括输入资料文件的数据以及主成份值(3) OUTSTAT=输出资料文件名称这一个输出资料文件包含下列的统计值算术平均数标准差观察体的总数相关系数 (或变异数共变异数)特性根和特性向量它们的代号与定义如下代号 (_TYPE_)定 义MEAN 每一变量的平均数STD 每一变量的标准差N 观察体的总个数CORR 每一变量与自己或其它的变量之间的相关系数COV 每一变量与自己或其它的变量之间的共变异数EIGENVAL特性根当选项 N= 界定成份个数少于实际导出的个数则以N=界定的个数为准其余的主成份以遗漏值 (.)表示SCORE 特性向量 (这些向量值一般是用来计算主成份值或被输送到FACTOR 程序作因子坐标的转换)SUMWGT 加权值的总和若读者在程序中包括了 PARTIAL 指令而且定V ARDEF=WDF则 SUMWGT 的值是加权值的总和减去PARTIAL 变量串的自由度当 SUMWGT 与 N 值相同时SUMWGT 的变量不会被纳入 OUTSTAT=输出资料文件内(4) NOINT要求相关矩阵或变异数共变异数矩阵不针对平均数作校正也就是说主成份分析不包括截距(5) COV ARIANCE (或 COV)要求以变异数共变异数矩阵为分析的数据若省略此选项则此统计分析将以相关系数矩阵为依据(6) N=正整数界定主成份的总数(7) STANDARD(或 STD)要求 OUT=输出资料文件中含标准化的主成份值若省略此选项则输出资料文件中将含未经标准化的主成份值 (这些值的变异数等于特性根的值)(8) PREFIX=主成份的名字为主成份命名内设值是PRIN1PRIN2... PRINn n 为正整数主成份的名字 (包括字母及数字) 不得超过八个字母或数字(9) NOPRINT不印出分析的结果(10) V ARDEF=DF (或 N 或 WGT 或 WDF)界定计算变异数与共变异数时所用的分母DF 代表自由度是此选项的内设值N 是样本总数WGT 是加权后的样本总数WDF 则是 (WGT-1)第34章 主成份分析统计程序PROC PRINCOMP 7指令 #2 VAR变量名称串指明对那些数值变量作主成份分析若省略此指令则本程序内其它指令里未曾提到的所有数值变量均将被纳入分析指令 #3 PARTIAL变量名称串此指令指明一组变量它们的值将会从其它的变量中净化出来净化后的变量值所形成的矩阵是净相关系数矩阵而非相关系数矩阵若读者在程序中同时界定 OUT= 或OUTSTAT=输出资料文件名则此输出资料文件也会含净化后的残差变量 (Residual Variable)这些残差变量的命名原则是 R_ 加上 V AR 指令所界定之变量名称的前六个字母所以如果 V AR 指令含X Y Z 三个变量则其所对应的残差变量就是R_X R_Y R_Z 了指令 #4 FREQ 变量名称此变量的值代表资料文件内各观察体重复出现的次数所以计算自由度时将以这个变量的总值为依据指令 #5 WEIGHT 变量名称当输入资料文件内各观察体的变异数不等时读者常须依这些不等变异数的倒数指派不同的加权值以区分各观察体的重要性这些加权值可被存入一个 WEIGHT 变量内以代表各观察体的加权值指令 #6 BY变量名称串此指令指示 SAS 将输入资料文件分成几个小的资料文件然后对每一个小的资料文件进行主成份分析当读者选用此指令时输入资料文件内的数据必须先依 BY 指令里所列举的变量值作从小到大的排列这个步骤可藉 PROC SORT 达成34.3 范 例例一一月和七月的气温分析本例的输入资料文件 (TEMPERAT) 是美国六十四个城市一月与七月的平均日温分析过程首先用 PROC PLOT 画出原始数据的分配图然后用 PRINCOMP 程序执行主成份分析求出两个主轴(PRIN1PRIN2)由于一月的温差较大而且选用 COV 选项使得一月在第一主成份上的负荷量较重最后用 PROC PLOT 画出两个主成份上各城市的负荷量读者可同时参阅第一次与第二次PLOT 程序所求得的两个图表来归纳出第一与第二主成份是原坐标轴旋转 30度的结果第七部分 多变量的分析8程 序DATA TEMPERAT;LENGTH CITY $ 16;TITLE 'Mean Temperature in January and July for Selected Cities';INPUT CITY $ :16. JANUARY :4.1 JULY :5.1 @@;CARDS;Mobile 51.2 81.6 Concord20.6 69.7Phoenix51.2 91.2 Atlantic_City 32.7 75.1Little_Rock 39.5 81.4 Albuquerque 35.2 78.7Sacramento 45.1 75.2 Albany 21.5 72.0Denver 29.9 73.0 Buffalo 23.7 70.1Hartford 24.8 72.7 New_York 32.2 76.6Wilmington 32.0 75.8 Charlotte 42.1 78.5Washington_DC 35.6 78.7 Raleigh 40.5 77.5Jacksonville 54.6 81.0 Bismarck 8.2 70.8Miami67.2 82.3 Cincinnati 31.1 75.6Atlanta42.4 78.0 Cleveland 26.9 71.4Boise29.0 74.5 Columbus 28.4 73.6Chicago22.9 71.9 Oklahoma_City 36.8 81.5Peoria23.8 75.1 Portland_OR 38.1 67.1Indianapolis27.9 75.0 Philadelphia 32.3 76.8Des_Moines19.4 75.1 Pittsburgh 28.1 71.9Wichita31.3 80.7 Providence 28.4 72.1Louisville33.3 76.9 Columbia 45.4 81.2New_Orleans52.9 81.9 Sioux_Falls 14.2 73.3Porland_ME21.5 68.0 Memphis 40.5 79.6Baltimore33.4 76.6 Nashville 38.3 79.6Boston29.2 73.3 Dallas 44.8 84.8Detroit25.5 73.3 El_Paso 43.6 82.3Sault_Ste_Marie 14.2 63.8 Houston 52.1 83.3Duluth 8.5 65.6 Salt_Lake_City 28.0 76.7Minneapolis 12.2 71.9 Burlington 16.8 69.8Jackson 47.1 81.7 Norfolk 40.5 78.3Kansas_City 27.8 78.8 Richmond 37.5 77.9St_Louis 31.3 78.6 Spokane 25.4 69.7Great_Falls 20.5 69.3 Charleston_WV 34.5 75.0Omaha 22.6 77.2 Milwaukee 19.4 69.9Reno 31.9 69.3 Cheyenne 26.6 69.1第34章 主成份分析统计程序PROC PRINCOMP 9;PROC PLOT; PLOT JULY*JANUARY=CITY / VPOS=31; RUN;PROC PRINCOMP COV OUT=PRIN;VAR JULY JANUARY; RUN;PROC PLOT;PLOT PRIN2*PRIN1=CITY / VPOS=19;TITLE2 'Plot of Principal Components'; RUN;结 果报表34.1 一月和七月的气温分析 Mean Temperature in January and July for Seleted CitiesPlot of JULY*JANUARY . Symbol is value of CITY .JULY|95 +||| P90 +|||85 + D| H| E N M| W O L C J M J80 + N M| K S AW NC| O L R RA| S WB75 + D P IB C A C S| S D CB| M AC H P D| B C70 + B M C BS| G C R| P P|65 + D| S||60 +| -+---------+---------+---------+---------+---------+---------+---------+-0 10 20 30 40 50 60 70JANUARYNOTE: 3 obs hidden.Principal Component Analysis64 Observations2 Variables Covariance MatrixSimple StatisticsJULY JANUARY JULY JANUARYJULY 26.292477746.8282912Mean 75.6078125032.09531250JANUARY 46.8282912137.1810888Std 5.1276191011.71243309Total Variance = 163.47356647第七部分 多变量的分析10 Eigenvalues of the Covariance Matrix EigenvectorsEigenvalueDifference Proportion Cumulative PRIN1PRIN2PRIN1154.311145.1480.9439480.94395JULY 0.3435320.939141PRIN29.163.0.056052 1.00000JANUARY 0.939141-.343532 Plot of Principal ComponentsPlot of PRIN2*PRIN1. Symbol is value of CITY .10 +|| P|PRIN2 | W| S O K O D| B M D S L| r S W r| I NPL N M C J0 + B AC HD B CW B R N H| D MC B A C RA M N| G B CP D J| P S| S C S| R M|||-10 + P -+---------+---------+---------+---------+---------+---------+---------+-30 -20 -10 0 10 20 30 40PRIN1NOTE: 4 obs hidden.例二犯罪率的分析本例的输入资料文件 (CRIME) 是一个五十个观察体乘以七个变量的原始数据矩阵它包含了美国五十个州在七种犯罪项目上的发生频率这七种罪名分别是谋杀(MURDER)强暴 (RAPE)抢劫 (ROBBERY)骚扰 (ASSAULT)夜间偷窃(BURGLARY)窃盗 (LARCENY) 及偷车 (AUTO)这样一个大型的资料文件可以用主成份分析法简化到只用两个或三个特性向量就可以圆满地表示程 序DATA CRIME;TITLE 'Crime Rates per 100,000 Population by State'; INPUT STATE $ 1-14 MURDER 18-21 RAPE 23-26 ROBBERY 28-32 ASSAULT 34-38BURGLARY 40-45 LARCENY 47-52 AUTO 53-59; CARDS;Alabama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3Arizona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5Arkansas 8.8 27.6 83.2 203.4 972.6 1862.1 183.4California 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1第34章 主成份分析统计程序PROC PRINCOMP 11Connecticut 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2Delaware 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4Georgia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6Illinois 9.9 21.8 211.3 209.0 1085.0 2828.5 528.6Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9Kansas 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3Kentucky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4Louisiana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7Maine 2.4 13.5 38.7 170.0 1253.1 2350.7 246.9Maryland 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5Masssachusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1Michigen 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5Minnesota 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4Missouri 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.2Nebraska 3.9 18.1 64.7 112.7 760.0 2316.1 249.1Nevada 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2New Hampshire 3.2 10.7 23.2 76.0 1041.7 2343.9 293.4New Jersey 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5New Mexico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5New York 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8North Carolina 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1North Dakota 0.9 9.0 13.3 43.8 446.1 1843.0 144.7Ohio 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4Oklahoma 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8Oregon 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9Pennsylvania 5.6 19.0 130.3 128.0 877.5 1624.1 333.2Rhode Island 3.6 10.5 86.5 201.0 1489.5 2844.1 791.4South Carolina 11.9 33.0 105.9 485.3 1613.6 2342.4 245.1South Dakota 2.0 13.5 17.9 155.7 570.5 1704.4 147.5Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6Utah 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5第七部分 多变量的分析12Vermont1.4 15.9 30.8 101.2 1348.2 2201.0 265.2Virginia 9.0 23.3 92.1 165.7 986.2 2521.2 226.7Washington 4.3 39.6106.2 224.8 1605.6 3386.9 360.3West Virginia 6.0 13.2 42.2 90.9 597.41341.7 163.3Wisconsin 2.8 12.9 52.2 63.7 846.9 2614.2 220.7Wyoming 5.4 21.9 39.7 173.9 811.6 2772.2 282.0;PROC PRINCOMP OUT=CRIMCOMP;RUN;PROC SORT; BY PRIN1;PROC PRINT; ID STATE;VAR PRIN1 PRIN2 MURDER RAPE ROBBERY ASSAULT BURGLARY LARCENY AUTO;TITLE2 'States Listed in Order of Overall Crime Rate'; TITLE3 'As Determined by the First Principal Component';PROCSORT; BY PRIN2;PROC PRINT; ID STATE;VAR PRIN1 PRIN2 MURDER RAPE ROBBERY ASSAULT BURGLARY LARCENYAUTO ;TITLE2 'States Listed in Order of Property Vs. Violent Crime'; TITLE3 'As Determined by the Second Principal Component';RUN;PROC PLOT; PLOT PRIN2*PRIN1=STATE /VPOS=31; TITLE2 'Plot of the First Two Principal Components';PROC PLOT; PLOT PRIN3*PRIN1=STATE / VPOS=26; TITLE2 'Plot of the First and Third Principal Components';RUN;结 果由初步的分析结果看来前两个主成份加起来便可以解释 76% 的变异数若再加上第三个主轴则百分比升到 87%但第四个及以后的主成份便没有这么显著的影响 (见报表 34.2a)第一个主成份代表一般犯罪率的高低它的特性向量在这七个变量上差不多第二个主成份似乎在犯罪类型中分出财物偷窃和暴力犯罪的不同第三主成份的解释则不甚清楚为了诠释这些主成份的意义可将原始数据依各主成份的值重新排列然后印出整理过后的数据 (见报表 34.2b)另一种有效的方法是将各州主成份的值以坐标图表示然后试着去了解各区 (如中西部东南部) 在坐标图上的分布 (见报表 34.2c)现举一例说明如何在坐标图上识别各州如第一图上有四个 "A" 开头的州名即Alabama Arkansas Alaska 和 Arizona 在这四州中Alabama 的位置最靠近横轴其坐标值是 (-.0499-2.0961)请读者同时参第34章 主成份分析统计程序PROC PRINCOMP 13阅坐标值与图形以便识别各州在犯罪率上的分析报表34.2a 犯罪率的分析 ━ 初步结果Crime Rates per 100,000 Population by StatePrincipal Component Analysis50 Observations 7 VariablesSimple StatisticsMURDERRAPE ROBBERY ASSAULT BURGLARY LARCENY AUTOMean 7.44400000025.73400000124.0920000211.30000001291.9040002671.288000377.5260000Std3.86676894110.7596299588.3485672100.2530492432.455711725.908707193.3944175Correlation MatrixMURDERRAPEROBBERY ASSAULT BURGLARY LARCENY AUTO MURDER 1.00000.60120.48370.64860.38580.10190.0688RAPE 0.6012 1.00000.59190.74030.71210.61400.3489ROBBERY 0.48370.5919 1.00000.55710.63720.44670.5907ASSAULT 0.64860.74030.5571 1.00000.62290.40440.2758BURGLARY 0.38580.71210.63720.6229 1.00000.79210.5580LARCENY 0.10190.61400.44670.40440.7921 1.00000.4442AUTO0.06880.34890.59070.27580.55800.44421.0000Eigenvalues of the Correlation MatrixEigenvalueDifferenceProportion CumulativePRIN1 4.11496 2.876240.5878510.58785PRIN2 1.238720.512910.1769600.76481PRIN30.725820.409380.1036880.86850PRIN40.316430.058460.0452050.91370PRIN50.257970.035930.0368530.95056PRIN60.222040.097980.0317200.98228PRIN70.124060.0177221.00000EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5PRIN6PRIN7MURDER 0.300279-.6291740.178245-.2321140.5381230.2591170.267593RAPE 0.431759-.169435-.2441980.0622160.188471-.773271-.296485ROBBERY 0.3968750.0422470.495861-.557989-.519977-.114385-.003903ASSAULT 0.396652-.343528-.0695100.629804-.5066510.1723630.191745BURGLARY 0.4401570.203341-.209895-.0575550.1010330.535987-.648117LARCENY 0.3573600.402319-.539231-.2348900.0300990.0394060.601690AUTO0.2951770.5024210.5683840.4192380.369753-.0572980.147046第七部分 多变量的分析14报表34.2b 犯罪率的分析━第一与第二主成份值的排列Crime Rates per 100,000 Population by State States Listed in Order of Overall Crime Rate As Determined by the First Principal ComponentB R A U L M O S R A S P P U B S G R T R R R R B A LC A A I ID AE U A E U T N N E P R L R N T E12R E Y T Y Y O NorthDakota -3.964080.387670.99.013.343.8446.11843.0144.7SouthDakota -3.17203-0.25446 2.013.517.9155.7570.51704.4147.5WestVirginia -3.14772-0.81425 6.013.242.290.9597.41341.7163.3Iowa-2.581560.82475 2.310.641.289.8812.52685.1219.9Wisconsin -2.502960.78083 2.812.952.263.7846.92614.2220.7NewHampshire -2.465620.82503 3.210.723.276.01041.72343.9293.4Nebraska -2.150710.22574 3.918.164.7112.7760.02316.1249.1Vermont -2.064330.94497 1.415.930.8101.21348.22201.0265.2Maine -1.826310.57878 2.413.538.7170.01253.12350.7246.9Kentucky -1.72691-1.1466310.119.181.1123.3872.21662.1245.4Pennsylvania -1.72007-0.19590 5.619.0130.3128.0877.51624.1333.2Montana -1.668010.27099 5.416.739.2156.8804.92773.2309.2Minnesota -1.55434 1.05644 2.719.585.985.81134.72559.3343.1Mississippi -1.50736-2.5467114.319.665.7189.1915.61239.9144.4Idaho-1.43245-0.00801 5.519.439.6172.51050.82599.6237.6Wyoming -1.424630.06268 5.421.939.7173.9811.62772.2282.0Arkansas -1.05441-1.345448.827.683.2203.4972.61862.1183.4Utah-1.049960.93656 3.520.368.8147.31171.63004.6334.5Virginia-0.91621-0.692659.023.392.1165.7986.22521.2226.7NorthCarolina -0.69925-1.6702710.617.061.3318.31154.12037.8192.1Kansas-0.63407-0.02804 6.622.0100.7180.51270.42739.3244.3Connecticut -0.54133 1.50123 4.216.8129.5131.81346.02620.7593.2Indiana -0.499900.000037.426.5123.2153.51086.22498.7377.4Oklahoma -0.32136-0.624298.629.273.8205.01288.22228.1326.8RhodeIsland -0.20156 2.14658 3.610.586.5201.01489.52844.1791.4Tennessee -0.13660-1.1349810.129.7145.8203.91259.71776.5314.0Alabama -0.04988-2.0961014.225.296.8278.31135.51881.9280.7NewJersey 0.217870.96421 5.621.0180.4185.11435.82774.5511.5Ohio 0.239530.090537.827.3190.5181.11216.02696.8400.4Georgia 0.49041-1.3807911.731.1140.5256.51351.12170.2297.9Illinois 0.512900.094239.921.8211.3209.01085.02828.5528.6Missouri 0.55637-0.558519.628.3189.0233.51318.32424.2378.4Hawaii0.82313 1.823927.225.5128.064.11911.53920.4489.4Washington 0.930580.73776 4.339.6106.2224.81605.63386.9360.3Delaware 0.96458 1.29674 6.024.9157.0194.21682.63678.4467.0Masssachusetts 0.97844 2.63105 3.120.8169.1231.61532.22311.31140.1Louisiana 1.12020-2.0832715.530.9142.9335.51165.52469.9337.7NewMexico 1.21417-0.950768.839.1109.6343.41418.73008.6259.5Texas 1.39696-0.6813113.333.8152.4208.21603.12988.7397.6Oregon1.449000.586034.939.9124.1286.91636.43506.1388.9第34章 主成份分析统计程序PROC PRINCOMP15SouthCarolina 1.60336-2.1621111.933.0105.9485.31613.62342.4245.1Maryland 2.18280-0.194748.034.8292.1358.91400.03177.7428.5Michigen 2.273330.154879.338.9261.9274.61522.73159.0545.5Alaska 2.421510.1665210.851.696.8284.01331.73369.8753.3Colorado 2.509290.91660 6.342.0170.7292.91935.23903.2477.1Arizona 3.014140.844959.534.2138.2312.32346.14467.4439.5Florida 3.11175-0.6039210.239.6187.9449.11859.93840.5351.4NewYork 3.452480.4328910.729.4472.6319.11728.02782.0745.8California 4.283800.1431911.549.4287.0358.02139.43499.8663.5Nevada5.26699-0.2526215.849.1323.1355.02453.14212.6559.2Crime Rates per 100,000 Population by StateStates Listedin Orderof Property Vs. Violent Crime As Determined by the Second Principal ComponentB R A U L M O S R A S P P U B S G R T R R R R B A LC A A I ID AE U A E U T N N E P R L R N T E12RE Y T Y Y O Mississippi -1.50736-2.5467114.319.665.7189.1915.61239.9144.4SouthCarolina 1.60336-2.1621111.933.0105.9485.31613.62342.4245.1Alabama -0.04988-2.0961014.225.296.8278.31135.51881.9280.7Louisiana1.12020-2.0832715.530.9142.9335.51165.52469.9337.7NorthCarolina -0.69925-1.6702710.617.061.3318.31154.12037.8192.1Georgia 0.49041-1.3807911.731.1140.5256.51351.12170.2297.9Arkansas -1.05441-1.345448.827.683.2203.4972.61862.1183.4Kentucky -1.72691-1.1466310.119.181.1123.3872.21662.1245.4Tennessee -0.13660-1.1349810.129.7145.8203.91259.71776.5314.0NewMexico 1.21417-0.950768.839.1109.6343.41418.73008.6259.5WestVirginia -3.14772-0.81425 6.013.242.290.9597.41341.7163.3Virginia -0.91621-0.692659.023.392.1165.7986.22521.2226.7Texas 1.39696-0.6813113.333.8152.4208.21603.12988.7397.6Oklahoma -0.32136-0.624298.629.273.8205.01288.22228.1326.8Florida 3.11175-0.6039210.239.6187.9449.11859.93840.5351.4Missouri 0.55637-0.558519.628.3189.0233.51318.32424.2378.4SouthDakota -3.17203-0.25446 2.013.517.9155.7570.51704.4147.5Nevada5.26699-0.2526215.849.1323.1355.02453.14212.6559.2Pennsylvania -1.72007-0.19590 5.619.0130.3128.0877.51624.1333.2Maryland 2.18280-0.194748.034.8292.1358.91400.03177.7428.5Kansas -0.63407-0.028046.622.0100.7180.51270.42739.3244.3Idaho -1.43245-0.00801 5.519.439.6172.51050.82599.6237.6Indiana -0.499900.000037.426.5123.2153.51086.22498.7377.4Wyoming -1.424630.06268 5.421.939.7173.9811.62772.2282.0Ohio 0.239530.090537.827.3190.5181.11216.02696.8400.4Illinois 0.512900.094239.921.8211.3209.01085.02828.5528.6California 4.283800.1431911.549.4287.0358.02139.43499.8663.5Michigen 2.273330.154879.338.9261.9274.61522.73159.0545.5Alaska 2.421510.1665210.851.696.8284.01331.73369.8753.3Nebraska -2.150710.22574 3.918.164.7112.7760.02316.1249.1Montana-1.668010.27099 5.416.739.2156.8804.92773.2309.2NorthDakota -3.964080.387670.99.013.343.8446.11843.0144.7NewYork3.452480.4328910.729.4472.6319.11728.02782.0745.8第七部分 多变量的分析16Maine -1.826310.57878 2.413.538.7170.01253.12350.7246.9Oregon 1.449000.58603 4.939.9124.1286.91636.43506.1388.9Washington 0.930580.73776 4.339.6106.2224.81605.63386.9360.3Wisconsin -2.502960.78083 2.812.952.263.7846.92614.2220.7Iowa-2.581560.82475 2.310.641.289.8812.52685.1219.9NewHampshire -2.465620.82503 3.210.723.276.01041.72343.9293.4Arizona3.014140.844959.534.2138.2312.32346.14467.4439.5Colorado 2.509290.91660 6.342.0170.7292.91935.23903.2477.1Utah -1.049960.93656 3.520.368.8147.31171.63004.6334.5Vermont -2.064330.94497 1.415.930.8101.21348.22201.0265.2NewJersey 0.217870.96421 5.621.0180.4185.11435.82774.5511.5Minnesota-1.554341.056442.719.585.985.81134.72559.3343.1Delaware 0.96458 1.29674 6.024.9157.0194.21682.63678.4467.0Connecticut -0.54133 1.50123 4.216.8129.5131.81346.02620.7593.2Hawaii 0.82313 1.823927.225.5128.064.11911.53920.4489.4RhodeIsland -0.20156 2.14658 3.610.586.5201.01489.52844.1791.4Masssachusetts 0.978442.631053.120.8169.1231.61532.22311.31140.1报表34.2c 犯罪率的分析 ━ 第一与第二主成份第一与第三主成份的坐标图Crime Rates per 100,000 Population by State Plot of the First Two Principal Components Plot of PRIN2*PRIN1. Symbol is value of STATE. 3 + || M || R 2 +| H | C || D1 + V M U N C | WN W A PRIN2 | M O|N N| N M MA C 0 + I KI O I| S P M N || V O M T F | W-1 + N | K T| A G | N |-2 + A L | S || M | -3 +-+--------------------+-------------------+-------------------+-------------------+--------------------+ -4 -2 0 2 4 6PRIN1 NOTE: 2 obs hidden.第34章 主成份分析统计程序PROC PRINCOMP 17Crime Rates per 100,000 Population by State Plot of the First and Third Principal Components Plot of PRIN3*PRIN1. Symbol is value of STAT E.3 +| N | M | | 2 + | PRIN3 | || I 1 + P R | M C| W K TA N M M | O L M| I G C 0 +N A N T A | S N N M V O| W M K N | I VM I U D S | H -1 + N| O C F | W || A -2 +-+---------- ----------+---------------------+---------------------+-------------------+-------------------+ -4 -2 0 2 4 6PRIN1 NOTE: 1 obs hidden.第35章因子分析统计程序PROC FACTOR35.1 因子分析法中的因子一词指什么许多人对因子分析法中所指的因子 一词不甚了解本节特就此说明之因子分析法中提到两种因子共同因子 (又称共因子) 和独特因子 这两种因子都是指一个(或一组) 假设的抽象的变量所谓共同因子指一个假设的抽象的变量它可用来解释两个或两个以上的原始变量然而独特因子则指一个假设的抽象的变量它只能用来解释一个原始的变量与其它变量完全无关如上所述因子指假设的抽象的变量它的功能在于诠释原始变量之间的关系或结构然而主成份是指原始变量间的线性组合它的功能在于简化原有的变量群35.2 共因子分析法的模型共因子分析法的模型允许每一变量有一独特因子所以Y ij = X i1b 1j + X i2b 2j +...+ X iq b qj + E ij其中Y ij = 第 i 个观察体在第 j 个变量上的值X ik = 第 i 个观察体在第 k 个共因子上的值b kj = 被第 k 个共因子用来预测第 j 个变量的回归系数又称因子负荷量(FactorLoading)Ei j = 第 i 个观察体在第 j 个独特因子上的值q = 共同因子的总数这个模型的两项假设如下独特因子之间是互相独立的共因子与独特因子之间是互相独立的35.3 PROC FACTOR程序概述因子分析及坐标的转换PROC FACTOR 可以对输入资料文件执行许多种不同的共因子分析及主成份分析也可将分析的结果经过坐标的转换以利于诠释第35章 因子分析统计程序PROC FACTOR 19输入资料文件PROC FACTOR 的输入资料文件可以是多变量数据一个相关系数矩阵一个变异数共变异数矩阵因子型态 (Factor Pattern)或是一个因子分数系数 (Factor Score Coefficient) 的矩阵FACTOR 程序也接受其它程序的输出资料文件所以输入资料文件变化很多详情见本章的第 35.6 节 因子提炼的方法FACTOR 程序提供九种因子提炼的方法供读者选用这九种方法将在介绍选项METHOD= 中详加解释另外FACTOR 程序也提供了六种方法来预估变量间的共通性见选项 PRIORS= 的说明 因子坐标的转换一般而言因子坐标的转换可分正交及斜交两大类FACTOR 程序提供了八种坐标转换的方法供读者选择见选项 ROTATE= 的说明 输出资料文件FACTOR 程序所产生的输出资料文件不止一个它们分别在选项 OUTSTAT= 中逐一说明35.4 因子分析法的历史背景共因子分析由史氏 (Spearman) 于 1904 年首创 读者可参阅古德氏 (Gould 1981)及金氏与穆勒氏 (Kim and Mueller 1978) 的书籍以便对分析法的目的及模型有初步的认识较深入的讨论可参看慕雷克 (Mulaik 1972) 与哈门 (Harman 1976) 的着作35.5 如何撰写 PROC FACTOR 程序PROC FACTOR 含七道指令它们的格式如下PROC FACTOR选项串PRIORS 变量共通性的预估值V AR 变量名称串PARTIAL 变量名称串FREQ 变量名称WEIGHT 变量名称BY变量名称串通常读者只须用到 PROC FACTOR 及 V AR 两道指令第七部分多变量的分析20指令 #1PROC FACTOR 选项串PROC FACTOR 的选项可分下列五大类讨论第一类选项与资料文件的界定有关第二类与因子提炼有关第三类与因子坐标的转换有关第四类选项控制报表的印出第五类含其它选项第一类选项 下列四选项与资料文件的界定有关(1) DATA=输入资料文件名称为输入资料文件命名若省略此选项则 SAS 会自动找出在此程序之前最后形成的 SAS 资料文件对它执行因子分析(2) TARGET=资料文件名称这一个资料文件内含有 Procrustes 坐标转换后理想的值必须与 ROTATE=PROCRUSTES 选项并用(3) OUT=输出资料文件名称这一个输出资料文件包括原输入资料文件的观察值以及因子分数 (Factor Score)这些值以 FACTOR1FACTOR2 等表示读者必须同时用 NFACTOR=选项界定因子个数上限(4) OUTSTAT=第二个输出资料文件名称这一个输出资料文件较上述 OUT=输出资料文件详尽下页的表是 OUTSTAT 文件所含因子分析的各项统计值之代号及它们的定义有些概念会在后面的章节中进一步解释代号 (_TYPE_=) 定 义MEAN 变量的平均数STD 变量的标准差N 观察体的总数CORR 相关系数矩阵矩阵内各横列的变量名字以 _NAME_ 表示IMAGE 映象系数矩阵 (Image Coefficient Matrix)矩阵内各横列的变量名字以 _NAME_ 表示IMAGECOV 映象的共变异数矩阵 (Image Covariance Matrix)矩阵内各横列的变量名字以 _NAME_ 表示COMMUNAL 各变量共通性的最终估计值PRIORS 各变量共通性的预估值WEIGHT 变量的加权值EIGENVAL 特性根UNROTATE 未经坐标转换的因子系数型态RESIDUAL 独特因子的相关系数矩阵TRANSFOR 坐标转换矩阵FCORR 共因子间的相关系数矩阵PA TTERN 因子系数的型态RCORR坐标轴间的相关系数矩阵REFERENC 参考结构矩阵 (Reference Structure Matrix)STRUCTUR 因子结构矩阵 (Factor Structure Matrix)SCORE 共因子分数的系数 (可输入 SCORE 程序以便产生共因子分数见第 12 章的例一)USCORE未经平均数矫正过的共因子分数的系数第二类选项下列十一个选项与因子提炼有关(1) METHOD=因子提炼的方法 (简写为 M=)一般而言此选项的内设值是 MEHTOD=PRINCIPAL 但当输入资料文件是TYPE=FACTOR 的情况下内设值是 METHOD=PATTERN 下列九种因子提炼的方法可供读者选用M=PRINCIPAL此选项的因子提炼方法视选项 PRIORS= 而定当此选(或 PRIN 或 P)项不与PRIORS= 并用或与 PRIORS=ONE 并用时它的因子提炼方法是主成份分析法否则它的因子提炼法是主轴因子分析法 (Principal Axis Common Factor Analysis)M=PRINIT界定循环式主轴因子分析 (Iterative Principal Axis Method)M=ULS (或 U)界定未加权的最小误差平方之因子分析 (Unweighted Least Squares Method)M=ALPHA (或 A)界定阿尔法因子分析(Alpha Factor Analysis)M=ML (或 M)界定最大可能率因子分析此法要求一个满秩的相关系数矩阵M=HARRIS (或 H)界定哈里斯氏 (Harris) 于 1962 年提出的 S -1RS -1 主轴分析此处S是变量的变异数共变异数矩阵R 是变量间的相关系数矩阵此法要求一个满秩的相关系数矩阵M=IMAGE (或 I)针对映象共变异数矩阵作主成份分析 (Principal Component Analysis of Image Covariance Matrix)此法要求一个满秩的相关系数矩阵请读者注意比法与凯斯(Kaiser 196319701974) 所提的映象分析 (Image Analysis) 无关M=PATTERN从输入资料文件 (其 TYPE=FACTOR CORR 或 COV)内取得因子负荷量矩阵若因子之间有线性相关则其间的相关系数也必须同时输入 (TYPE='FCORR' 的数据)M=SCORE从输入资料文件 (其 TYPE=FACTOR CORR 或 COV)内取得因子分数的系数这个输入资料文件必须同时包括变量间的相关系数或其变异数共变异数矩阵(2) PRIORS=变量共通性的预估值PRIORS=ONE (或 O)设定所有共通性的预估值为1PRIORS=MAX (或 M)取每一变量与其它变量的最大相关系数绝对值为该变量共通性的预估值PRIORS=SMC (或 S)取每一变量与其它变量的复相关平方值为该变量共通性的预估值PRIORS=ASMC(或 A)将上述的复相关 (SMC) 调整使其总和等于最大相关系数绝对值的总和而共通性预估值将与此值成正比 (Cureton 1968)PRIORS=INPUT(或I)如果输入资料文件的TYPE=FACTOR 则读者可选用此选项SAS 会进入资料文件内寻找 _TYPE_='PRIORS' 或_TYPE_='COMMUNAL'的变量此变量的第一个观察值就成为共通性的预估值PRIORS=RANDOM(或 R)随机取 0 与 1 之间的任何值为共通性的预估值下表列出因子提炼方法与共通性预估值的内设值之配对因子提炼的方法 共通性预测值的内设值 METHOD= PRIORS= PRINCIPAL ONEPRINITONE ALPHA SMC ULS SMC ML SMC HARRIS (不适用) IMAGE (不适用) PA TTERN(不适用)SCORE (不适用)(3) RANDOM=正整数起始随机随机数表的起始值与选项 (2) PRIORS=RANDOM 联用(4) MAXITER=正整数界定METHOD=PRINITULS ALPHA 或 ML 等因子分析法中循环分析的次数内设值是30(5) CONVERGE (或 CONV)= 正实数界定METHOD=PRINITULS ALPHA 或 ML 等因子分析法中循环分析的收敛值它的定义是两次循环所求得变量之共通性的差距当这个差距小于此选项所定的值时循环分析停止内设值是.001(6) COV ARIANCE (或 COV)要求 FACTOR程序对变异数共变异数矩阵 (而非相关系数矩阵) 执行因子分析此选项必须与 METHOD=PRINCIPAL PRINIT ULS 或 IMAGE适用(7) WEIGHT要求 FACTOR 程序对一个经过加权调整的相关系数矩阵或变异数共变异数矩阵执行因子分析选用此项时必须同时满足下列的条件METHOD=PRINCIPALPRINIT ULS 或IMAGE输入资料文件的TYPE=CORR COV UCORR UCOV 或FACTOR 各变量的加权值由 _TYPE_='WEIGHT'提供下面三个选项都可用来决定因子的总数如果读者在下面三选项中同时选用两个或三个选项则 SAS 会自动挑选最小的值(8) NFACTORS (或 NFACT 或 N)=正整数界定因子个数的上限内设值是所有被分析变量的总个数(9) PROPORTION (或 PERCENT 或 P)=百分比(正实数不带 % 符号)界定一个共因子至少要能解释的变量之变异数百分比内设值是 1 (即百分之百)此选项不可与 METHOD=PATTERN 或 SCORE 合用(10) MINEIGEN (或 MIN)=最小特性根的值要求 SAS 保留特性根大于此选项所设定的那些因子此选项不可与METHOD=PATTERN 或SCORE 合用一般而言其内设值是0若读者对未加权过的相关系数矩阵进行因子分析则其内设值等于1但如果读者同时省略NFACTORS=PROPORTION= 及 MINEIGEN= 三选项时SAS 会依下面的原则自行设定 MINEIGEN 的值当 METHOD= 则 MINEIGEN 的值为 ALPHA 或 HARRIS 1 IMAGE 映象的总变异数 (Total Image Variance)变量的总个数其它 的方法而且经过加权调整的总变异数PRIORS=1 变量的总个数一般而言当共通性的预估值超过 1 时 METHOD=PRINIT ULS ALPHA 和ML 立刻停止分析的过程并设因子的总个数为0下列两个选项可以让分析过程恢复(11) HEYWOOD (或 HEY)将大于 1 的变量共通性重新调整为 1如此分析可以继续进行(12) ULTRAHEYWOOD (或 ULTRA)改变规定允许变量的共通性大于 1此选项极可能导致不合理的分析结果因此应慎重使用之第三类选项 下列六个选项与坐标转换有关(1) ROTATE (或 R)=坐标转换法有八种方法可供选择R=V ARIMAX (或 V)界定最大变异数转换法R=QUARTIMAX (或 Q)界定四次方最大值转换法R=EQUAMAX (或 E)界定平衡最大值坐标转换法。

SAS数据分析实验报告

SAS数据分析实验报告

SAS数据分析实验报告摘要:本文使用SAS软件对一组数据集进行了分析。

通过数据清洗、数据变换、数据建模和数据评估等步骤,得出了相关的结论。

实验结果表明,使用SAS软件进行数据分析可以有效地处理和分析大型数据集,得出可靠的结论。

1.引言数据分析在各个领域中都扮演着重要的角色,可以帮助人们从大量的数据中提取有用信息。

SAS是一种常用的数据分析软件,被广泛应用于统计分析、商业决策、运营管理等领域。

本实验旨在探究如何使用SAS软件进行数据分析。

2.数据集描述本实验使用了一个包含1000个样本的数据集。

数据集包括了各个样本的性别、年龄、身高、体重等多种变量。

3.数据清洗在进行数据分析之前,首先需要对数据进行清洗。

数据清洗包括缺失值处理、异常值处理和重复值处理等步骤。

通过使用SAS软件中的相应函数和命令,我们对数据集进行了清洗,确保数据的质量和准确性。

4.数据变换在进行数据分析之前,还需要对数据进行变换。

数据变换包括数据标准化、数据离散化和数据归一化等操作。

通过使用SAS软件中的变换函数和操作符,我们对数据集进行了变换,使其符合分析的需要。

5.数据建模数据建模是数据分析的核心过程,包括回归分析、聚类分析和分类分析等。

在本实验中,我们使用SAS软件的回归、聚类和分类函数,对数据集进行了建模分析。

首先,我们进行了回归分析,通过拟合回归模型,找到了自变量对因变量的影响。

通过回归模型,我们可以预测因变量的值,并分析自变量的影响因素。

其次,我们进行了聚类分析,根据样本的特征将其分类到不同的群组中。

通过聚类分析,我们可以发现样本之间的相似性和差异性,从而做出针对性的决策。

最后,我们进行了分类分析,根据样本的特征判断其所属的类别。

通过分类分析,我们可以根据样本的特征预测其所属的类别,并进行相关的决策。

6.数据评估在进行数据分析之后,还需要对结果进行评估。

评估包括模型的拟合程度、变量的显著性和模型的稳定性等。

通过使用SAS软件的评估函数和指标,我们对数据分析的结果进行了评估。

sas实验报告

sas实验报告

sas实验报告SAS实验报告。

一、实验目的。

本实验旨在通过使用SAS软件对实验数据进行分析,掌握SAS软件的基本操作和数据处理技能,进一步提高数据分析能力。

二、实验内容。

1. 数据导入,将实验数据导入SAS软件中,建立数据集。

2. 数据清洗,对数据进行缺失值处理、异常值处理等清洗工作,保证数据的准确性和完整性。

3. 描述统计分析,对数据进行描述性统计分析,包括均值、标准差、频数分布等。

4. 数据可视化,利用SAS软件绘制数据的直方图、箱线图等可视化图表,直观展现数据分布情况。

5. 假设检验,对数据进行假设检验,验证数据之间的关系和差异性。

三、实验步骤。

1. 数据导入,首先打开SAS软件,利用导入数据功能将实验数据导入SAS环境中,创建数据集。

2. 数据清洗,对导入的数据进行缺失值处理和异常值处理,保证数据的完整性和准确性。

3. 描述统计分析,利用SAS软件进行描述统计分析,得出数据的均值、标准差、频数分布等统计指标。

4. 数据可视化,利用SAS软件绘制数据的直方图、箱线图等可视化图表,直观展现数据的分布情况。

5. 假设检验,利用SAS软件进行假设检验,验证数据之间的关系和差异性。

四、实验结果分析。

通过SAS软件的操作,我们成功完成了对实验数据的导入、清洗、描述统计分析、数据可视化和假设检验等工作。

通过分析结果,我们得出了实验数据的基本特征和规律,验证了数据之间的关系和差异性,为进一步的数据分析工作奠定了基础。

五、实验总结与体会。

通过本次实验,我们深刻体会到了SAS软件在数据分析领域的强大功能和广泛应用。

掌握了SAS软件的基本操作和数据处理技能,提高了数据分析能力。

同时,也加深了对数据分析方法和技巧的理解和应用,为今后的科研工作打下了坚实的基础。

六、参考文献。

[1] 《SAS统计分析实战指南》。

[2] 《SAS数据分析与挖掘实战》。

七、附录。

实验数据集,xxx.xlsx。

以上为本次SAS实验报告的全部内容。

sas实验报告

sas实验报告

sas实验报告SAS实验报告一、实验目的:1.了解SAS软件的使用方法和基本操作2.熟悉SAS数据处理和分析的流程3.掌握SAS数据导入和导出的方法二、实验原理:SAS(Statistical Analysis System)是一个用于统计分析的软件系统,包括数据管理、数据挖掘、报告和图形展示等功能。

SAS语言是一种功能强大的编程语言,通过SAS语言,可以对数据进行处理、分析和建模。

三、实验内容和步骤:1.打开SAS软件,创建一个新的SAS工作空间。

2.使用DATA和SET语句导入外部数据文件,并观察数据的结构和变量。

3.使用PROC PRINT和PROC FREQ等语句对数据进行描述性统计和频数分析。

4.使用PROC MEANS和PROC UNIVARIATE等语句对数据进行均值分析和单变量分析。

5.使用PROC CORR和PROC REG等语句进行相关分析和回归分析。

6.使用PROC GRAPH和PROC PLOT等语句绘制图形。

四、实验结果分析:通过使用SAS软件进行数据处理和分析,我们得到了以下结果:1.数据结构和变量分析:数据包含了10个变量,其中包括年龄、性别、教育水平、职业等信息。

2.描述性统计和频数分析:我们对数据进行了描述性统计,包括计算了平均值、中位数、标准差等统计量,并使用频数分析对变量进行了分组统计。

3.均值分析和单变量分析:我们使用PROC MEANS和PROC UNIVARIATE进行了变量的均值分析和单变量分析,得到了各变量的均值、标准差、四分位数等统计量。

4.相关分析和回归分析:我们使用PROC CORR和PROC REG 对变量之间的相关性进行了分析,并使用回归分析模型进行了拟合。

5.图形绘制:我们使用PROC GRAPH和PROC PLOT对数据进行了可视化展示,绘制了直方图、散点图等图形。

通过对实验结果的分析,我们可以对数据进行进一步的理解和解读,得到了对变量之间关系和趋势的更深入的认识。

sas实验报告

sas实验报告

sas实验报告1. 实验目的本次实验的目的是通过使用SAS软件,对给定数据集进行分析并绘制出相关的图表,从而深入理解数据中的信息,为后续的数据分析和业务决策提供支持。

2. 实验过程2.1 数据清洗在进行数据分析之前,需要对给定的数据集进行清洗。

首先,我们查看了数据是否存在缺失值和异常值。

通过观察发现该数据集中没有缺失值,并且异常值也很少。

我们选择对一些偏离正常范围较大的值进行平滑处理,以减小对后续分析的影响。

2.2 数据分析接下来,我们使用SAS软件对数据进行分析,并绘制相关的图表。

通过对数据的统计学分析和可视化,我们得到了以下结论:2.2.1 数据的概览我们首先对数据中的各个变量进行了基本的统计学描述,包括均值、中位数、标准差、最大值和最小值。

同时,我们绘制了数据直方图、密度图等图表,以更好地理解各个变量的分布规律。

2.2.2 变量的相关性分析我们使用了相关系数等分析方法,研究了各个变量之间的相关性。

通过相关系数矩阵和相关性图表,我们发现有些变量之间存在显著的相关关系,对于后续的数据分析和业务决策有重要的参考价值。

2.2.3 因素分析我们对整个数据集进行了因素分析,找出了影响数据各个变量的主要因素。

通过因子载荷矩阵和成分图表,我们更深入地理解了变量之间的内在联系和因果关系。

3. 实验结果通过本次SAS实验,我们对各种数据分析方法的使用方法和优缺点有了更深入的了解。

同时,我们成功地完成了对给定数据集的分析和可视化,并得出了一些有价值的结论,为后续的数据分析和业务决策提供了有效的支持。

4. 结论本次SAS实验不仅增强了我们对数据分析的理论知识和实践能力,还将对我们未来的学习和工作产生积极的影响。

我们将继续学习和掌握各种数据分析工具和方法,为公司的发展提供更好的支持和帮助。

SAS软件应用之典型相关分析

SAS软件应用之典型相关分析

CANCORR过程
▪ WP选择项用来为WITH语句中变量的典型变量命 名前缀,名字不超过40个字符串长。
▪ EDF选择项用来指定该回归分析的残差自由度。 ▪ VAR语句列出两组变量中的第一组变量。若缺省,
则所有不出现在其它语句中的数值变量均将列在 第一组内。 ▪ WITH语句列出两组变量中的第二组变量。该语 句不能省略。 ▪ PARTIAL语句用来指定协变量。系统以此协变量 来计算偏相关系数矩阵,然后进行典型相关分析。 ▪ 另外,freq语句、weight语句、by语句等也实用。
第21章 诊断试验的ROC分析
学习目标
▪ 熟悉诊断试验的常用评价指标; ▪ 熟悉ROC曲线的含义以及构建; ▪ 通过SAS实例掌握进行ROC分析的SAS程
序;
概述
▪ 诊断性试验是对疾病进行诊断的试验方法,它不 仅包括实验室检查,还包括各种影像诊断,如X诊断、CT、核磁共振(MRI) 、超声波诊断以及同 位素检查、纤维内诊镜、电镜等诊断方法。诊断 性试验(diagnostic test) 的质量通常用敏感度和特 异度来衡量。在同一试验中,如果取不同的临界 值,则可得到不同的敏感度和特异度,将这些点 在以敏感度为Y轴,以(1-特异度) 为X轴的坐标上 标出并连成线,就可得到一条ROC曲线。
诊断试验
▪ 对于诊断试验的评价,首先应知道受试者 (人、动物或影像等)的真实类别,即哪 些属于对照组(或无病组,正常组,噪声组 等),哪些属于病例组(或有病组,异常组, 信号组等)。划分病例与对照这两个组的标 准就是金标准。医学研究中常见的金标准 有:活组织检查、尸体解剖、手术探查和 跟踪随访结果等。尽管金标准不需要十全 十美,但是它们应比评价的诊断试验更加 可靠,且与评价的诊断试验无关。

SAS系统和数据分析典型相关分析

SAS系统和数据分析典型相关分析

第三十七课 典型相关分析典型相关分析(Canonical Correlation Analysis )是研究两组变量间相关关系的一种多元统计分析方法。

它能够揭示两组变量之间的内在联系,真正反映两组变量间的线性相关情况。

一、 典型相关分析我们研究过两个随机变量间的相关,它们可以用相关系数表示。

然而,在实际中常常会遇到要研究两组随机变量间),,,(21p x x x 和),,,(21q y y y 的相关关系问题。

),,,(21p x x x 和),,,(21q y y y 可能是完全不同的,但是它们的线性函数可能存在密切的关系,这种密切的关系能反映),,,(21p x x x 和),,,(21q y y y 之间的相关关系。

因此,就要找出),,,(21p x x x 的一个线性组合u 及),,,(21q y y y 的一个线性组合v ,希望找到的u 和v 之间有最大可能的相关系数,以充分反映两组变量间的关系。

这样就把研究两组随机变量间相关关系的问题转化为研究两个随机变量间的相关关系。

如果一对变量(u ,v )还不能完全刻画两组变量间的相关关系时,可以继续找第二对变量,希望这对变量在与第一对变量(u ,v )不相关的情况下也具有尽可能大的相关系数。

直到进行到找不到相关变量对时为止。

这便引导出典型相关变量的概念。

1. 典型相关系数与典型相关变量设有两组随机变量),,,(21p x x x 和),,,(21q y y y ,假定它们都已经标准化了,即p i x D x E i i ,,2,1= ,1=)(,0=)( ,q i y D y E i i ,,2,1= ,1=)(,0=)( ,若记:⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=p p y y y y x x x x 2121, 此时,它们的协方差矩阵(也是相关系数矩阵)为:R R R R R y x D yy xy yx xx =⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛ 其中,()()yx xy yy xx R R y x Cov R y D R x D ====),(,,实际上,我们要找:y m v x l u 1111,'='=使1u 和1v 的相关系数),(11v u ρ达到最大。

实验报告七-SAS典型相关分析

实验报告七-SAS典型相关分析

实验报告实验项目名称典型相关分析所属课程名称统计分析及SAS实现实验类型验证性实验实验日期2016-12-11班级数学与应用数学学号姓名成绩【实验方案设计】一.理解典型相关分析的概念及步骤;二.掌握典型相关分析的方法;三.用INSIGHT、“分析家”计算统计量和编程实现实际问题中的典型相关分析;【实验过程】(实验步骤、记录、数据、分析)【练习7-1】对某高中一年级男生38人进行体力测试及运动能力测试,如表所示,试对两组指标作典型相关分析。

34 47 55 113 40 71.4 19 64 7.6 410 29 7 33135 49 74 120 53 54.5 22 59 6.9 500 33 21 34236 44 52 110 37 54.9 14 57 7.5 400 29 2 42137 52 66 130 47 45.9 14 45 6.8 505 28 11 35538 48 68 100 45 53.6 23 70 7.2 522 28 9 352其中,体力测试指标为:X1-------反复横向跳(次),X2-------纵跳(cm),X 3------背力(kg),X4------捏力(kg),X5-----台阶测试(指数),X6------定向体前屈(cm),X7-------俯卧上提后仰(cm)。

运动能力测试的指标为y1-50m跑(s),y2-跳远(cm),y3-投球(m),y4引体向上(次),y5-耐力跑(s)。

【解答】利用INSIGHT模块进行典型相关分析:结果:表7.1 Univariate StatisticsVariable N Mean Std Dev Minimum Maximumy1 38 7.1316 0.3354 6.6000 8.0000y2 38 441.8421 43.2138 362.0000 522.0000y3 38 27.8158 2.7495 21.0000 33.0000y4 38 7.5263 3.8326 2.0000 21.0000由表7.1得知一些基本统计量,各变量下的均值、标准差、最大值、最小值。

SAS典型相关分析

SAS典型相关分析

(xi ,u j )
a
k 1
kj
xi ,xk
/ xi
cov( xi , v j ) cov( xi ,b1 j y1 b2 j y2 bpj yq )
cov( xi ,b1 j y1) cov( xi ,b2 j y2 ) cov( xi ,bpj y p )
q
b kj k 1
y1
x1
uv22
a12 x1 b12 y1
a22 x2 b22 y2
b32
y3
y2
x2
(u2,v2 ) ?
y3
典型相关分析的思想:
首先分别在每组变量中找出第一对线性组合,使其具 有最大相关性,然后再在每组变量中找出第二对线性组合, 使其分别与本组内的第一线性组合不相关,第二对本身具 有次大的相关性。如此下去,直至两组变量的相关性被提 取完为止。
p
a k 1
kj
yi ,xk
p
( yi ,u j )
a
k 1
kj
yi ,xk
/ yi
cov( yi , v j ) cov( yi ,b1 j y1 b2 j y2 bpj yq )
cov( xi ,b1 j y1) cov( xi ,b2 j y2 ) cov( xi ,bpj y p )
2、不同组的典型变量之间相关性
不同组内典型变量之间的相关系数为:
cov(
ui
,
v
j
)
cov(
ai
x,
b
j
y)
ai cov( x, y)bj ai12bj
1 j
ai1222121a j
1
j
ai2j11a j

SAS判别分析实验报告

SAS判别分析实验报告

判别分析一:实验目的通过实验掌握使用SAS进行判别分析的几种常用方法:距离判别,贝叶斯判别,费希尔判别。

二:实验内容1.用DISCRIM过程作贝叶斯判别。

2.用DISCRIM过程作费希尔判别。

三:程序代码及结果分析练习1(1)程序代码(2)结果及分析表1.1-对14名未定级运动员作贝叶斯判别表1.1 表明了在先验概率相同的前提下,对14名未定级运动员作贝叶斯判别的结果。

其中8,9,11,12,14均判给第二组,其余9个均判给第一组。

表1.2交叉验证法对误判概率作估计表1.2表明交叉验证法对误判概率做出的估计。

其中40,48号运用交叉验证法得出是误判的。

均是误判给了第一组。

而在全样品中是没有被误判的。

表1.3各组误判概率及平均误判概率表1.3表明把第一组误判的概率为0,将第二组误判给第一组的概率为0.08.平均误判概率为0.04..表1.4先验概率不同情况下的贝叶斯判别表1.4为在先验概率p1=0.8,p2=0.2的情况下运动员归属的判别。

其中9,11,12,14判给第二组,其余均判给第一组。

由表可以看出先验概率不同得到的判别是不同的。

例如第60号(第8个未定级)运动员判给了第一组,而在概率相同时时判给了第二组。

练习2(1)程序代码(2)结果及分析表2.1费希尔判别系数费希尔判别式为xxxxxxxxy87654321103687468.0195246015.0202200109.0420281838.1 00763493.0837675738.0369109646.0022344104.0-+++ --+=xxxxxxxxy876543212026966644.0235306430.0203863959.0039957871.1006017311.0386499597.0332405063.0045417606.0+++-++++-=表2.2判别式得分散点图表2.2中1代表通用牛奶厂商,2代表克罗格厂商,3代表夸克厂商。

sas回归分析实验报告

sas回归分析实验报告

sas回归分析实验报告SAS回归分析实验报告引言:回归分析是一种常用的统计方法,用于研究变量之间的关系。

在本次实验中,我们使用SAS软件进行回归分析,探索自变量和因变量之间的关系,并对结果进行解释和推断。

本实验旨在通过实际数据的分析和处理,加深对回归分析方法的理解和应用。

实验设计:本次实验使用了某公司销售数据,其中自变量包括广告费用、产品价格和季节因素,因变量为销售额。

我们的目标是通过回归分析,探究广告费用、产品价格和季节因素对销售额的影响,并建立一个可靠的模型来预测销售额。

数据处理:首先,我们对数据进行了清洗和预处理。

去除了缺失值和异常值,并进行了变量的标准化处理,以确保数据的准确性和可比性。

接下来,我们使用SAS软件进行回归分析。

回归模型建立:我们选择了多元线性回归模型来建立自变量和因变量之间的关系。

通过分析数据,我们发现广告费用、产品价格和季节因素对销售额都可能有影响。

因此,我们的模型为:销售额= β0 + β1 × 广告费用+ β2 × 产品价格+ β3 × 季节因素+ ε其中,β0、β1、β2和β3分别为回归系数,ε为误差项。

回归分析结果:通过SAS软件进行回归分析后,我们得到了如下结果:回归方程:销售额= 1000 + 2.5 × 广告费用+ 1.8 × 产品价格+ 0.3 × 季节因素回归系数的显著性检验结果显示,广告费用和产品价格对销售额的影响是显著的(p < 0.05),而季节因素的影响不显著(p > 0.05)。

模型解释和推断:根据回归方程的结果,我们可以得出以下结论:1. 广告费用对销售额有正向影响:每增加1单位的广告费用,销售额将增加2.5单位。

2. 产品价格对销售额也有正向影响:每增加1单位的产品价格,销售额将增加1.8单位。

3. 季节因素对销售额的影响不显著:季节因素对销售额的变化没有明显的影响。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验报告实验项目名称典型相关分析所属课程名称统计分析及SAS实现实验类型验证性实验实验日期2016-12-11班级数学与应用数学学号姓名成绩【实验方案设计】一.理解典型相关分析的概念及步骤;二.掌握典型相关分析的方法;三.用INSIGHT、“分析家”计算统计量和编程实现实际问题中的典型相关分析;【实验过程】(实验步骤、记录、数据、分析)【练习7-1】对某高中一年级男生38人进行体力测试及运动能力测试,如表所示,试对两组指标作典型相关分析。

34 47 55 113 40 71.4 19 64 7.6 410 29 7 33135 49 74 120 53 54.5 22 59 6.9 500 33 21 34236 44 52 110 37 54.9 14 57 7.5 400 29 2 42137 52 66 130 47 45.9 14 45 6.8 505 28 11 35538 48 68 100 45 53.6 23 70 7.2 522 28 9 352其中,体力测试指标为:X1-------反复横向跳(次),X2-------纵跳(cm),X 3------背力(kg),X4------捏力(kg),X5-----台阶测试(指数),X6------定向体前屈(cm),X7-------俯卧上提后仰(cm)。

运动能力测试的指标为y1-50m跑(s),y2-跳远(cm),y3-投球(m),y4引体向上(次),y5-耐力跑(s)。

【解答】利用INSIGHT模块进行典型相关分析:结果:表7.1 Univariate StatisticsVariable N Mean Std Dev Minimum Maximumy1 38 7.1316 0.3354 6.6000 8.0000y2 38 441.8421 43.2138 362.0000 522.0000y3 38 27.8158 2.7495 21.0000 33.0000y4 38 7.5263 3.8326 2.0000 21.0000由表7.1得知一些基本统计量,各变量下的均值、标准差、最大值、最小值。

由表7.2相关系数阵、表7.3典型相关系数得知,第一典型相关系数为0.848708,修正值为0.797684,标准误差为0.045982,典型相关系数的平方为0.720305;第二典型相关系数为0.702963,修正值为0.582556,标准误差为0.083160,典型相关系数的平方为0.494157;第三典型相关系数为0.646784,标准误差为0.095626,典型相关系数的平方为0.418329;第四典型相关系数为0.354212,修正值为0.177885,标准误差为0.143773,典型相关系数的平方为0.125466;第五典型相关系数为0.268706,标准误差为0.152529,典型相关系数的平方为0.072203。

表由表7.4特征根可以得到特征根、相邻两特征根之差、特征根所占方差信息量的比例、累计方差信息量的比例,其中前三对典型变量所能解释的变异占总变异的95.07%,其他两个典型相关变量的作用很小,一共只解释了总变异的4.93%,因此不予考虑。

表7.5:应用似然比法检验典型相关系数与零的差别,由表7.5检验典型相关系数与零的差别得到p值依次为<0.0001、0.0089、0.0878,因此,对于前两组典型相关变量,拒绝小于此对典型变量典型相关系数的所有典型相关系数为0的原假设,因此,前两组变量的相关性的研究可转化为研究前两对典型相关变量的相关性。

由表7.6典型相关结构,从相关系数判断,体力测试指标除x4(0.2712)、x 5(0.2156)、x7(0.1052)外各变量与第一典型相关变量间的相关性比较高,运动能力测试的指标与第一典型相关变量间的相关性都比较高;x5与第二典型相关变量间的相关性比较高,说明第一对典型相关变量对台阶测试(x5)的解释作用不大。

从体力测试指标组的变量与运动能力测试的指标组的典型变量之间,运动能力测试的指标组的变量与体力测试指标组的典型变量之间的相关系数可见,各组变量与前两对典型变量之间均有较强的相关性。

表由表7.7、表7.8标准化变量的典型变量的系数可知,来自运动能力测试的指标的第一典型变量CY1为:****15432407943.0032325.0333193.0147529.0534016.01y y y y y CY --++-=CY1在y 4*上的系数近似为0,在y 1*、y 4*、y 5*上的系数为负值,在y 3*上的系数较大,因此CY1主要代表了投球等指标。

来自体力测试指标的第一典型变量CX1为:*7*6*5*4*3*2*1014738.0113355.0267853.0067975.0659461.0165109.0449775.01x x x x x x x CX ++++++=CX1在x 3*上的系数最大,在x 1*上的系数较大,在其余变量上的系数均较小,因此,CX1主要代表了反复横向跳、背力等指标。

由表7.9、表7.10典型冗余分析(Canonical Redundancy Analysis )表明,两对典型变量仍不能全面预测配对的那组变量。

来自运动能力测试的指标被对方两个典型变量(CX1、CX2)解释的累积方差比例为39.29%,来自体力测试指标被对方两个典型变量(CY1、CY2)解释的累计方差比例为37.36%。

【练习7-2】用典型相关分析研究我国农业投入与产出的关系(见表)。

农业产出水平选取如下三个指标作为“产出组”指标:农业总产出(亿元),用农林牧渔业总产值表示,记为y 1;农业劳动生产率(元/人),用人均农业牧渔业总产值表示,记为y 2。

农业总产出增长速度(%),用农林牧渔业总产值的增长速度表示,记为y 3。

农业投入水平选取如下7个指标作为”投入组”指标:农业劳动投入(人)用从业人数表示,记为X 1:农业物质消耗(亿元),用农业牧渔业中间消耗价值表示,记为X 2:农民受教育程度(年),用农民家庭的平均文化程度表示,记为X 3:农业机械化程度(万kw),用农业机械总动力表示,记为X4;农业电力文化程度(亿kw.h),用农村电量表示,记为X5:农业土地投入(khm2),用有效灌溉面积表示,记为X6:化肥用量(10kt)用农牧渔业化肥施用量来表示,记为X7。

【解答】利用“分析家”实现典型相关分析:结果:The CANCORR ProcedureCanonical Correlation Analysis表7.11 典型相关系数Canonical CorrelationAdjustedCanonicalCorrelationApproximateStandardErrorSquaredCanonicalCorrelation1 0.998993 . 0.000474 0.9979872 0.994616 . 0.002531 0.9892613 0.615312 0.514167 0.146463 0.378609由表7.11得知本题提取了3个典型相关系数,第一个典型相关系数CanR1=0.998993,为第一对典型相关变量之间的相关性。

第二典型相关系数为0.994616,第三典型相关系数为0.615312。

表7.12 特征根及典型相关系数的检验由表7.12可以得到特征根、相邻两特征根之差、特征根所占方差信息量的比例、累计方差信息量的比例,其中前两对典型变量所能解释的变异占总变异的99.9%,其他两个典型相关变量的作用很小,一共只解释了总变异的0.1%,因此不予考虑。

应用似然比法检验典型相关系数与零的差别,由表7.12检验典型相关系数与零的差别得到p值依次为<0.0001、<0.0001、0.3175,因此,对于前两组典型相关变量,拒绝小于此对典型变量典型相关系数的所有典型相关系数为0的原假设,因此,前两组变量的相关性的研究可转化为研究前两对典型相关变量的相关性。

由表7.13对典型相关系数均为0的F检验,本题中Wilk’Lambda检验结果与表7.12一致,因此表明至少有一个典型相关系数在α<0.0001的显著性水平下非0。

表7.14 Raw Canonical Coefficients for the VAR Variables表由表7.14、表7.15可知,表中数据为原始表达的典型变量的系数,没有使用相同的单位进行测量,造成出现数据十分小的结果,因此对原始变量进行标准化处理。

7.16 Standardized Canonical Coefficients表7.17 Standardized Canonical Coefficients由表7.16第一典型变量V1为:*7*6*****0647.00988.03469.02287.01558.00449.02087.0154321xx x x x x x V +++++-=V1在x 3*上的系数最大,在其余变量上的系数均较小,因此,V1主要代表了农业机械化程度等指标。

来自“产出组”指标的第一典型变量W1为:***3210137.04621.24256.31y y y W --= W1在y 1*上的系数较大,因此W1主要代表了农业总产出等指标。

表7.18 Correlations Between the VAR Variables表7.19 Correlations Between the WITH Variables由表7.18、7.19典型相关结构,在原始变量与本组典型变量的相关关系中,“投入组”指标的第一典型变量V1与农业劳动投入、农业物质消耗、农民受教育程度、农业机械化程度、农业电力文化程度、农业土地投入、化肥用量的相关系数都较大,说明这个典型变量主要反映整个投入指标;“产出组”指标的第一典型变量W1与农业总产出、农业劳动生产率的相关系数都较大(0.9716、0.9446),说明这个典型变量主要反映农业劳动产出。

表7.20 Correlations Between the VAR Variables and the Canonical Variables表7.21 Correlations Between the WITH Variables and the Canonical由表7.20、表7.21典型相关结构知,在原始变量与两组配对组的典型变量的相关关系结果,化肥用量与“投入组”指标的第一典型变量V1的相关系数最大,说明用农牧渔业化肥施用量大则“投入”高;农业总产出与“产出组”指标的第一典型变量W1的相关系数最大(0.9706),说明农业总产出越高,产出量越大。

相关文档
最新文档