sas教程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多变数分析是wenku.baidu.com时考虑多个反应变量的统计分析方法。 多元方差分析的SAS过程有ANOVA和GLM,均用MANOV 语句实现。
在MANOVA模型中,因变量个数两个或两个以上,自 变量可是一个也可多个。
二、多变数分析主要内容
两个均值向量的假设检验、多元方差分析、主成份分析、 因子分析、聚类分析、典型相关分析、通径分析等。
7.4 40.8 5.5 80.5 manova h=trtment/printe printh;
;
proc print;
run;
测验效应项 显示 H矩阵中每 一效应的参数值
SAS输出结果与分析:
输出结果主要分三部分:
前面是单变量方差分析结果,即分别进行各个指标 (变量)的方差分析;
中间是多元方差分析结果,即综合考虑y1,y2、y3、 y4四指标及其相关性的情况下,处理间的差异显著性 测验。
sii 2sik skk ....... (3) n
这些区间,SAS均具输出功能。
注意点:
①SAS过程中means语句如采用Bonferroni法,其关 键词为”Bon”。 ②对于多元资料做均数的多重比较时,Bon法比LSD 法标准高,选用Bon不致于降低置信系数。
③Bon法与Ducan法、Tukey法比较,达显著的标准 Duncan法较低;Bon法与Tukey法精度相当,但Bon法 能保证1-α置信系数而Tukey法则不能,故实际工作中一 般性的实验的多重比较,选用Duncan法为好,而推广前 的试验或要求较高精度的试验用Bon法最为科学。
最后分别对各指标进行该因子水平均数间的多重比较。
第二部分多元方差分析
The ANOVA Procedure Multivariate Analysis of Variance
E = Error SSCP Matrix
y1
y2
y3
y4
y1
12.3050
113.3175
4.3075 40.56739815
n1(
)
2p
sii n
i
xi
t
n1(
)
2p
sii ....... (2) n
保证置信概率为1-α 可以证明μi -μk 置信系数为1-α的同时置信区间为:
xi
xk
t
n 1(
)
2p
sii 2sik skk n
i k
xi xk t n1( ) 2p
三、多元资料的基础知识
1.资料的组织(构建资料矩阵) 2.样本均数向量 3.样本协方差矩阵 4.样本相关矩阵 5.相关矩阵与协方矩阵之间的关系 6. Wilks的 统计量及其转化为F值。 7.Bonferroni检验法
10.2 单因子试验的多元分析
1. 完成随机设计 实例 2. 随机区组设计 3. 拉丁方设计 4. 改良对比法设计
采用5×5拉丁方设计。观察形状为x1=株高(厘米), x2=平均薯数(个),x3=产量(吨/公顷)。
结果如下表:
210
217.5
186.0
C 7.1 E 8.6 ... A 6.0
22.5
22.5
30.6
230.0
206.5
221.5
D 9.4 B 13.0 ... E 7.8
22.5
28.1
20.6
表15.4 橡胶树幼苗茎粗与株高测量值表
区组 处理
1
......
6
Ⅰ
Ⅱ ...... Ⅵ
0.95 0.49 ...... 0.58 98.6 43.5 ...... 54.5 ...... ...... ...... ...... 0.53 0.22 ...... 0.37 32.5 48.0 ...... 43.5
0.05
其他略
Bon Grouping
A
B
A
B
A
B
A
B
A
B
Mean N trtment 8.2500 4 4 8.1250 4 1 8.0000 4 3 8.0000 4 2 8.0000 4 6 6.2250 4 5
2.随机区组设计
例10. 华南热带作物科学研究院橡胶所土壤农化研究室,于 1988年5月用甲铁制砖红壤土作一橡胶树幼苗(RRIM600) 盆栽试验。供试处理6个,采用重复6次的随机区组设计。 1989年6月测得茎粗与株高如下:(数据见SAS程序中)
1.单因子完全随机试验的多元分析
一、数学模型与数据矩阵的分解
设有g个总体,每个总体观察n个p元向量,共有gn个观察向量。
多元总体 观察向量
x
1 x11 x12 … x1n
x1
2... x...21 x... 22 …... x2n
x2
g xg1 xg2 xg3
xg
任一观察向量
xij1
xij
四、试验实例及其SAS程序
例10.1 香草兰叶面施肥试验,设六种处理,每处理重复四 次。记录了四种性状,即y1=单果重量(克),y2=单穗 重量(克),y3=单穗单果数(个),x4=成果率(%)。 试作方差分析。
处理 指标
重复
y1
8.2 8.6 7.8 7.9
1
y2 y3
42.5 54.6 35.0 61.5 5.2 6.4 4.5 7.8
Pillai's Trace
1.58481240
2.36
20
72 0.0042
Hotelling-Lawley Trace
5.21315433
3.67
20 26.289 0.0011
Roy's Greatest Root 3.31473471 11.93
5
18 <.0001
NOTE: F Statistic for Roy's Greatest Root is an upper bound.
Wilks的 =0.07037,转化的近似F=3.11,其Pr>F 值为0.0006小
于0.01,差异极显著。即6种处理间存在极显著差异。这是考虑四个 性状及其相关性在内而得出的结论,因而比单变元统计结论更全面地 反映了事物的本质。
第三部分 各指标下因子水平均数间的多重比较 以下是MANOVA语句下的“means trtment/bon;”的分析结果。
Bonferroni (Dunn) t Tests for y1
This test controls the Type I experimentwise error rate,but it generally has a higher Type II error rate than REGWQ.
Alpha
实际上,p个形如(1)的置信区间合在一起构成的μi (i=1,2,…,p)的同时置信区间,其显著水准不再是α,而是 比 α要大,即置信系数并不是(1-α),而是比(1-α)小。 为解决以上矛盾,可取 显著水准α为原 α的1/p,再由 Bonferroni概率不等式,可导出p元同时置信区间:
xi
t
DF = 18
y1
y2
y3
y4
y1
1.000000 0.688245 0.253147 0.436768
0.0011
0.2957
0.0615
y2
0.688245 1.000000 0.865832 0.645733
0.0011
<.0001
0.0028
y3
0.253147 0.865832 1.000000 0.635853
平方和及交叉乘积矩阵:
SSP=Sum of Square and Grossprotucts Mattrix =SS & CP matrix
二、 Wilks 的统计量及其分布
H 0 :1 2 .... g 0
1i
i
2
...
i
pi
1
对于P元总体均数向量
p1
2
..
.
的每分量μi 的p=1-α置信区间
p
xi tn1( ) 2
sii n
i xi tn1( ) 2
sii ....... (1) n
其中Sii为协方阵,S对角线的第i个元素,即第i个变数的方差。
SAS程序
data rabbor6; do trtment=1 to 6; do block=1 to 6; input y1 y2 @@; output; end; end;
cards; 0.95 98.6 0.49 43.5 ...... 0.37 19.5 0.37 43.5 ;
proc anova; class block trtment; model y1 y2=block trtment; manova h=trtment/printe
printh; means trtment/bon; means trtment/bon alpha=0.01;
run;
SAS程序tyqb10 输出结果略。
3.拉丁方设计 例16.4 木薯种植密度试验,设置5种株行距:
A:1×0.8米 B:0.8×0.7米 D:0.9×0.7米 E:1×1米
C:0.8×0.8米
第十章 多元方差分析
(MANOVA)
10.1 多元资料统计分析概况 10.2 单因子试验的多元分析 10.3 二因子试验多元方差分析 10.4 正交试验的多元分析 10.5 裂区设计的多元方差分析 10.6 多元套设计的SAS程序
10.1 多元资料统计分析概况
一、多变数分析
(处理i 1,2,...,g; 变量即性状p)
求出统计量Λ(Wilks统计量) | W | | B W |
可转换成F值
三、Bonferroni多重比较法
对于均数多重比较,以上介绍了LSD法、Duncan 及Tukey法(单变元提出)。 Bonferroni法由Dun.O.J 所提出,适用于p个变元的多重比较。
y2
113.3175 2203.0625
197.1325 802.51195986
y3
4.3075
197.1325
23.5300 81.668218143
y4 40.56739815 802.51195986 81.668218143 701.08445903
以上显示E矩阵=分析误差矩阵。
Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
p1
xij 2
...
i eij
xijp
i 1,2,...,g
j
1,2,...,n
以上模型的观察值向量,可作如下分解:
xij x (xi x) xij xi
观察值
总样本
均数 ˆ
估计的处
理效应 ˆi
剩余 eˆij
... ... ... ... ... ... ...
155.5
215.0
212.0
B 7.5 D 12.2 ... C 7.7
15.0
37.5
26.5
(数据见SAS程序中)
及偏相关系数
input y1-y3 x4 @@;
y4=arsin(sqrt(x4/100))*180/3.1415926;
output; end; end;
cards; 8.2 42.5 5.2 57.8 8.6 54.6 6.4 64.4 ......
proc anova;(或glm) class trtment; model y1-y4=trtment;
0.2957
<.0001
0.0034
y4
0.436768 0.645733 0.635853 1.000000
0.0615
0.0028
0.0034
给出因变量对因子的偏相关系数及其显著性 ,如
r24=0.645733,其p=0.0028<0.01,即y2与y4极 显著正相关。
MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall trtment Effect
H = Anova SSCP Matrix for trtment E = Error SSCP Matrix S=4 M=0 N=6.5
Statistic
Value F Value Num DF Den DF Pr > F
Wilks' Lambda
0.07037094
3.11
20 50.699 0.0006
x4
57.8 64.4 58.7 78.3
………
y1
8.0 7.9 8.7 7.4
6
y2 y3
72.4 66.1 74.3 40.8 9.1 8.4 8.5 5.5
x4
83.3 89.3 88.0 80.5
data vanilla;
do trtment=1 to 6;
输出误差矩阵
do rep=1 to 4;
在MANOVA模型中,因变量个数两个或两个以上,自 变量可是一个也可多个。
二、多变数分析主要内容
两个均值向量的假设检验、多元方差分析、主成份分析、 因子分析、聚类分析、典型相关分析、通径分析等。
7.4 40.8 5.5 80.5 manova h=trtment/printe printh;
;
proc print;
run;
测验效应项 显示 H矩阵中每 一效应的参数值
SAS输出结果与分析:
输出结果主要分三部分:
前面是单变量方差分析结果,即分别进行各个指标 (变量)的方差分析;
中间是多元方差分析结果,即综合考虑y1,y2、y3、 y4四指标及其相关性的情况下,处理间的差异显著性 测验。
sii 2sik skk ....... (3) n
这些区间,SAS均具输出功能。
注意点:
①SAS过程中means语句如采用Bonferroni法,其关 键词为”Bon”。 ②对于多元资料做均数的多重比较时,Bon法比LSD 法标准高,选用Bon不致于降低置信系数。
③Bon法与Ducan法、Tukey法比较,达显著的标准 Duncan法较低;Bon法与Tukey法精度相当,但Bon法 能保证1-α置信系数而Tukey法则不能,故实际工作中一 般性的实验的多重比较,选用Duncan法为好,而推广前 的试验或要求较高精度的试验用Bon法最为科学。
最后分别对各指标进行该因子水平均数间的多重比较。
第二部分多元方差分析
The ANOVA Procedure Multivariate Analysis of Variance
E = Error SSCP Matrix
y1
y2
y3
y4
y1
12.3050
113.3175
4.3075 40.56739815
n1(
)
2p
sii n
i
xi
t
n1(
)
2p
sii ....... (2) n
保证置信概率为1-α 可以证明μi -μk 置信系数为1-α的同时置信区间为:
xi
xk
t
n 1(
)
2p
sii 2sik skk n
i k
xi xk t n1( ) 2p
三、多元资料的基础知识
1.资料的组织(构建资料矩阵) 2.样本均数向量 3.样本协方差矩阵 4.样本相关矩阵 5.相关矩阵与协方矩阵之间的关系 6. Wilks的 统计量及其转化为F值。 7.Bonferroni检验法
10.2 单因子试验的多元分析
1. 完成随机设计 实例 2. 随机区组设计 3. 拉丁方设计 4. 改良对比法设计
采用5×5拉丁方设计。观察形状为x1=株高(厘米), x2=平均薯数(个),x3=产量(吨/公顷)。
结果如下表:
210
217.5
186.0
C 7.1 E 8.6 ... A 6.0
22.5
22.5
30.6
230.0
206.5
221.5
D 9.4 B 13.0 ... E 7.8
22.5
28.1
20.6
表15.4 橡胶树幼苗茎粗与株高测量值表
区组 处理
1
......
6
Ⅰ
Ⅱ ...... Ⅵ
0.95 0.49 ...... 0.58 98.6 43.5 ...... 54.5 ...... ...... ...... ...... 0.53 0.22 ...... 0.37 32.5 48.0 ...... 43.5
0.05
其他略
Bon Grouping
A
B
A
B
A
B
A
B
A
B
Mean N trtment 8.2500 4 4 8.1250 4 1 8.0000 4 3 8.0000 4 2 8.0000 4 6 6.2250 4 5
2.随机区组设计
例10. 华南热带作物科学研究院橡胶所土壤农化研究室,于 1988年5月用甲铁制砖红壤土作一橡胶树幼苗(RRIM600) 盆栽试验。供试处理6个,采用重复6次的随机区组设计。 1989年6月测得茎粗与株高如下:(数据见SAS程序中)
1.单因子完全随机试验的多元分析
一、数学模型与数据矩阵的分解
设有g个总体,每个总体观察n个p元向量,共有gn个观察向量。
多元总体 观察向量
x
1 x11 x12 … x1n
x1
2... x...21 x... 22 …... x2n
x2
g xg1 xg2 xg3
xg
任一观察向量
xij1
xij
四、试验实例及其SAS程序
例10.1 香草兰叶面施肥试验,设六种处理,每处理重复四 次。记录了四种性状,即y1=单果重量(克),y2=单穗 重量(克),y3=单穗单果数(个),x4=成果率(%)。 试作方差分析。
处理 指标
重复
y1
8.2 8.6 7.8 7.9
1
y2 y3
42.5 54.6 35.0 61.5 5.2 6.4 4.5 7.8
Pillai's Trace
1.58481240
2.36
20
72 0.0042
Hotelling-Lawley Trace
5.21315433
3.67
20 26.289 0.0011
Roy's Greatest Root 3.31473471 11.93
5
18 <.0001
NOTE: F Statistic for Roy's Greatest Root is an upper bound.
Wilks的 =0.07037,转化的近似F=3.11,其Pr>F 值为0.0006小
于0.01,差异极显著。即6种处理间存在极显著差异。这是考虑四个 性状及其相关性在内而得出的结论,因而比单变元统计结论更全面地 反映了事物的本质。
第三部分 各指标下因子水平均数间的多重比较 以下是MANOVA语句下的“means trtment/bon;”的分析结果。
Bonferroni (Dunn) t Tests for y1
This test controls the Type I experimentwise error rate,but it generally has a higher Type II error rate than REGWQ.
Alpha
实际上,p个形如(1)的置信区间合在一起构成的μi (i=1,2,…,p)的同时置信区间,其显著水准不再是α,而是 比 α要大,即置信系数并不是(1-α),而是比(1-α)小。 为解决以上矛盾,可取 显著水准α为原 α的1/p,再由 Bonferroni概率不等式,可导出p元同时置信区间:
xi
t
DF = 18
y1
y2
y3
y4
y1
1.000000 0.688245 0.253147 0.436768
0.0011
0.2957
0.0615
y2
0.688245 1.000000 0.865832 0.645733
0.0011
<.0001
0.0028
y3
0.253147 0.865832 1.000000 0.635853
平方和及交叉乘积矩阵:
SSP=Sum of Square and Grossprotucts Mattrix =SS & CP matrix
二、 Wilks 的统计量及其分布
H 0 :1 2 .... g 0
1i
i
2
...
i
pi
1
对于P元总体均数向量
p1
2
..
.
的每分量μi 的p=1-α置信区间
p
xi tn1( ) 2
sii n
i xi tn1( ) 2
sii ....... (1) n
其中Sii为协方阵,S对角线的第i个元素,即第i个变数的方差。
SAS程序
data rabbor6; do trtment=1 to 6; do block=1 to 6; input y1 y2 @@; output; end; end;
cards; 0.95 98.6 0.49 43.5 ...... 0.37 19.5 0.37 43.5 ;
proc anova; class block trtment; model y1 y2=block trtment; manova h=trtment/printe
printh; means trtment/bon; means trtment/bon alpha=0.01;
run;
SAS程序tyqb10 输出结果略。
3.拉丁方设计 例16.4 木薯种植密度试验,设置5种株行距:
A:1×0.8米 B:0.8×0.7米 D:0.9×0.7米 E:1×1米
C:0.8×0.8米
第十章 多元方差分析
(MANOVA)
10.1 多元资料统计分析概况 10.2 单因子试验的多元分析 10.3 二因子试验多元方差分析 10.4 正交试验的多元分析 10.5 裂区设计的多元方差分析 10.6 多元套设计的SAS程序
10.1 多元资料统计分析概况
一、多变数分析
(处理i 1,2,...,g; 变量即性状p)
求出统计量Λ(Wilks统计量) | W | | B W |
可转换成F值
三、Bonferroni多重比较法
对于均数多重比较,以上介绍了LSD法、Duncan 及Tukey法(单变元提出)。 Bonferroni法由Dun.O.J 所提出,适用于p个变元的多重比较。
y2
113.3175 2203.0625
197.1325 802.51195986
y3
4.3075
197.1325
23.5300 81.668218143
y4 40.56739815 802.51195986 81.668218143 701.08445903
以上显示E矩阵=分析误差矩阵。
Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
p1
xij 2
...
i eij
xijp
i 1,2,...,g
j
1,2,...,n
以上模型的观察值向量,可作如下分解:
xij x (xi x) xij xi
观察值
总样本
均数 ˆ
估计的处
理效应 ˆi
剩余 eˆij
... ... ... ... ... ... ...
155.5
215.0
212.0
B 7.5 D 12.2 ... C 7.7
15.0
37.5
26.5
(数据见SAS程序中)
及偏相关系数
input y1-y3 x4 @@;
y4=arsin(sqrt(x4/100))*180/3.1415926;
output; end; end;
cards; 8.2 42.5 5.2 57.8 8.6 54.6 6.4 64.4 ......
proc anova;(或glm) class trtment; model y1-y4=trtment;
0.2957
<.0001
0.0034
y4
0.436768 0.645733 0.635853 1.000000
0.0615
0.0028
0.0034
给出因变量对因子的偏相关系数及其显著性 ,如
r24=0.645733,其p=0.0028<0.01,即y2与y4极 显著正相关。
MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall trtment Effect
H = Anova SSCP Matrix for trtment E = Error SSCP Matrix S=4 M=0 N=6.5
Statistic
Value F Value Num DF Den DF Pr > F
Wilks' Lambda
0.07037094
3.11
20 50.699 0.0006
x4
57.8 64.4 58.7 78.3
………
y1
8.0 7.9 8.7 7.4
6
y2 y3
72.4 66.1 74.3 40.8 9.1 8.4 8.5 5.5
x4
83.3 89.3 88.0 80.5
data vanilla;
do trtment=1 to 6;
输出误差矩阵
do rep=1 to 4;