最新-学年度第二学期统计分析软件SAS考试试卷(A)(答案)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

暨 南 大 学 考 试 试 卷
一、填空题(共10空,每空2分,共20分)
1. 一个完整的SAS 程序由二部分组成: _数据 __步与_ 过程 __步.
2. 多元统计分析中的判别分析与聚类分析的本质区别是: _类别是否已知,若已知,则为判别分析;否则为聚类分析 _.
3. 进行数值资料的描述统计描述的两个基本SAS 过程是: _MEANS _过程与__ _UNIVARIATE _过程.
4. 把多个SAS 数据集进行横向合并、纵向合并所用的语句分别是_MERGE _ 语句、__SET _语句.
5. 进行分类资料的统计分析的两个基本SAS 过程是: _ LOGISTIC __过程与_ FREQ __过程.
6. 进行数值资料的方差分析的两个基本SAS 过程是: _ ANOVA __过程与_ GLM __过程.
7. 在SAS 中,可用于进行相关分析的过程常用的有:简单线性相关及等级相关的_ CORR _过程与典型相关的_ CANCORR _过程.
8. 秩和检验的SAS 过程中最常用的有二种:一是用于配对设计数值变量资料符号秩和验的 UNIVARIATE _过程,另一是用于成组设计两样本比较及多个样本比较的秩和检验的 _ NPAR1WAY _过程.
9. GLM 过程可用于:进行(1)非均衡设计资料的 方差分析 _、(2)协方差分析及建立(3)_ 多项式 _回归.
10. 在SAS 中,可用于进行数值资料回归分析的过程常用的有:一元及多元线性回归的 REG _过程与非线性回归的_ NLIN _过程.
(一)
SAS 数据集E3是对20名25∽34岁的健康妇女进行体检取得的,现需要建立由头肌皮褶厚度(1X ,cm),大腿围(2X ,cm)及中臂围(3X ,cm)预测身体脂肪(Y ,cm)分布的方程. 运行SAS 某些过程,有以下SAS 运行结果:
The REG Procedure
Model: M1
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F Model 3 396.98461 132.32820 21.52 <.0001
Error 16 98.40489 6.15031
Corrected Total 19 495.38950
Root MSE 2.47998 R-Square 0.8014
Dependent Mean 20.19500 Adj R-Sq 0.7641
Coeff Var 12.28017
Parameter Estimates
Parameter Standard Variance Variable DF Estimate Error t Value Pr > |t| Inflation Intercept 1 117.08469 99.78240 1.17 0.2578 0 x1 1 4.33409 3.01551 1.44 0.1699 708.84291 x2 1 -2.85685 2.58202 -1.11 0.2849 564.34339 x3 1 -2.18606 1.59550 -1.37 0.1896 104.60601
The PRINCOMP Procedure
Correlation Matrix
x1 x2 x3
x1 1.0000 0.9238 0.4578
x2 0.9238 1.0000 0.0847
x3 0.4578 0.0847 1.0000
Eigenvalues of the Correlation Matrix
Eigenvalue Difference Proportion Cumulative
1 2.06647268 1.13367198 0.6888 0.6888
2 0.93280070 0.93207408 0.3109 0.9998
3 0.00072662 0.0002 1.0000
Eigenvectors
z1 z2 z3
x1 0.694696 -.050106 -.717557
x2 0.629428 -.440509 0.640135
x3 0.348164 0.896349 0.274482
The REG Procedure
Model: M2
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 3 396.98461 132.32820 21.52 <.0001
Error 16 98.40489 6.15031
Corrected Total 19 495.38950
Root MSE 2.47998 R-Square 0.8014
Dependent Mean 20.19500 Adj R-Sq 0.7641 Coeff Var 12.28017
Parameter Estimates
Parameter Standard Variance Variable DF Estimate Error t Value Pr > |t| Inflation Intercept 1 20.19500 0.55454 36.42 <.0001 0 z1 1 2.93576 0.39578 7.42 <.0001 1.00000 z2 1 -1.64976 0.58908 -2.80 0.0128 1.00000 z3 1 -27.38341 21.10659 -1.30 0.2129 1.00000
1.为建立Y 关于321,,X X X 的线性回归方程,需应用的SAS 过程为:
A. LOGISTIC 过程
B.NLIN 过程
C.GLM 过程
D.REG 过程 2.由所建立的线性回归方程可见: 用321,,X X X 来解释Y 的变动,只可以解释其中的( )%, 在0.05的显著性水平之下,有显著影响的因素有( )个, 而且三因素间( )共线性现象.
A.80.14%, 0, 存在
B. 80.14%, 0, 不存在
C.76.41%, 0, 不存在
D. 80.14%, 3, 存在
3.根据对321,,X X X 所作的主成分分析,SAS 运行结果表明, 相关矩阵的最大特征值为( ),实际应用中(按80%的原则),需要选取的主成分为( )个. A. 2.06647268,1 B. 1.13367198,1 C. 2.06647268,2 D. 1.13367198,2
4.根据对321,,X X X 所作的主成分分析,SAS 运行结果表明,第一主成分为=1Z
A. 3213481.06294.06947.0X X X ++
B. 3212745.06401.07176.0X X X ++-
C.3218963.04405.00501.0X X X +--
D.以上结果都不对
5. 根据SAS 运行结果,取Y 关于主成分321,,Z Z Z 的线性回归方程,能有效地消除
多重共线性,所得的线性回归方程为 3
32211ˆˆˆ1950.20ˆZ Z Z Y βββ+++=,其中: =1
ˆβ
A. 0.8014
B. 2.93576
C.0.39578
D. 7.42
(二)
为110名7岁男童身高资料(SAS数据集名为P6),试编制频数表,计算描述性统计量并进行正态性检验. 运行SAS某些过程,有以下SAS运行结果:
The UNIVARIATE Procedure
Variable: x
Moments
N 110 Sum Weights 110
Mean 119.727273 Sum Observations 13170
Std Deviation 4.74132543 Variance 22.4801668
Skewness 0.15461074 Kurtosis -0.0252871
Uncorrected SS 1579258.52 Corrected SS 2450.33818
Coeff Variation 3.96010476 Std Error Mean 0.45206764
Basic Statistical Measures
Location Variability
Mean 119.7273 Std Deviation 4.74133
Median 119.9000 Variance 22.48017
Mode 114.3000 Range 24.30000
Interquartile Range 6.40000
NOTE: The mode displayed is the smallest of 5 modes with a count of 3.
Tests for Normality
Test --Statistic--- -----p Value------
Shapiro-Wilk W 0.993143 Pr < W 0.8623
Kolmogorov-Smirnov D 0.055958 Pr > D >0.1500
Cramer-von Mises W-Sq 0.036956 Pr > W-Sq >0.2500
Anderson-Darling A-Sq 0.231585 Pr > A-Sq >0.2500
回答以下问题:
6.为编制频数表,所使用的SAS过程为:
A. FREQ 过程
B. MEANS 过程
C. UNIVARIATE 过程
D.TTEST 过程
7.要计算诸如除均值,标准差,最值之外的统计量,还要计算众数,中位数,四分位间距等描述性统计量,需要使用的SAS过程为:
A. FREQ 过程
B. MEANS 过程
C. UNIVARIATE 过程
D.REG 过程
8.为进行分布的正态性检验, 需在所使用的UNIVARIATE过程( )语句中加上NORMAL选项.
A. VAR 语句
B. PROC UNIVARIATE 语句
C. MODEL 语句
D.BY 语句
9.根据SAS运行结果, 样本中位数为:
A. 119.7273
B. -0.0253
C. 119.9000
D. 114.3000
10.根据SAS运行结果, 可认为在显著性水平( )下所给的身高资料( )正态分布.
A.0.05,服从
B. 0.5, 服从
C. 0.05,不服从
D. 0.5 不服从
调查1329名血中胆固醇(CHO)含量及成人血压(SBP)和冠心病(D)的关系,得到如下表所示的列联表:
要求进行相应的统计分析. 运行SAS某些过程,有以下SAS运行结果:
The FREQ Procedure
Summary Statistics for case by cho
Cochran-Mantel-Haenszel Statistics (Based on Table Scores)
Statistic Alternative Hypothesis DF Value Prob ---------------------------------------------------------------
1 Nonzero Correlation 1 26.1475 <.0001
2 Row Mean Scores Differ 1 26.1475 <.0001
3 General Association 3 35.0021 <.0001
The FREQ Procedure
Summary Statistics for case by sbp
Cochran-Mantel-Haenszel Statistics (Based on Table Scores)
Statistic Alternative Hypothesis DF Value Prob ---------------------------------------------------------------
1 Nonzero Correlation 1 21.9444 <.0001
2 Row Mean Scores Differ 1 21.9444 <.0001
3 General Association 3 28.9441 <.0001
The LOGISTIC Procedure
Model Information
Data Set WORK.EX_905
Response Variable case
Number of Response Levels 2
Frequency Variable count
Model binary logit
Optimization Technique Fisher's scoring
Probability modeled is case=1.
NOTE: 1 observation having nonpositive frequency or weight was excluded since it does not contribute to the analysis.
Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.
Deviance and Pearson Goodness-of-Fit Statistics
Criterion Value DF Value/DF Pr > ChiSq
Deviance 14.8472 13 1.1421 0.3170
Pearson 13.4287 13 1.0330 0.4153
Model Fit Statistics
Intercept
Intercept and
Criterion Only Covariates
AIC 670.831 630.952
SC 676.024 646.529
-2 Log L 668.831 624.952
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > ChiSq
Likelihood Ratio 43.8791 2 <.0001
Score 43.3635 2 <.0001
Wald 40.2202 2 <.0001
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept 1 -5.0916 0.4428 132.2333 <.0001
cho 1 0.5300 0.1166 20.6717 <.0001 sbp 1 0.4405 0.1091 16.2992 <.0001
Odds Ratio Estimates
Point 95% Wald
Effect Estimate Confidence Limits cho 1.699 1.352 2.135 sbp 1.553 1.254 1.924
Association of Predicted Probabilities and Observed Responses
Percent Concordant 66.3 Somers' D 0.393 Percent Discordant 26.9 Gamma 0.422 Percent Tied 6.8 Tau-a 0.051 Pairs 113804 c 0.697
1.就所给的资料,为分析胆固醇(CHO)、收缩压(SBP)是否为冠心病(CASE)的危险因素,可考虑应用的SAS 过程有:
A.CORR 过程
B.GLM 过程
C.FREQ 过程
D.LOGISTIC 过程
E.REG 过程
2.根据SAS 运行结果,在0.05的显著性水平下,就胆固醇与冠心病的关系分析,正确的结论为:
A. 胆固醇是冠心病的危险因素
B. 胆固醇不是冠心病的危险因素
C. 对应的CHM 检验的=2χ35.0021
D. 对应的CHM 检验的
=2χ26.1475
E. 对应的CHM 检验的p 值<.0001
3.根据SAS 运行结果, 在0.05的显著性水平下,就收缩压与冠心病的关系分析,正确的结论为:
A. 收缩压不是冠心病的危险因素
B. 收缩压是冠心病的危险因素
C. 对应的CHM 检验的=2χ21.9444
D. 对应的CHM 检验的p 值<.0001
E. 对应的CHM 检验的=2χ28.9441
4.根据SAS运行结果,以下结论错误的有:
A.Pearson拟合优度为13.4287
B.Pearson拟合优度为14.8472
C.在0.05的显著性水平下,可认为胆固醇与收缩压中至少有一个是冠心
病的危险因素
D.在0.05的显著性水平下,可认为胆固醇与收缩压中没有一个是冠心病
的危险因素
E.带截距的模型拟合统计量AIC为670.831
5. 根据SAS运行结果,以下正确的有:
A.在0.05的显著性水平下,可认为胆固醇与收缩压都对冠心病有影响
B.胆固醇与收缩压两因素中,最危险的因素是胆固醇
C.胆固醇与收缩压两因素中,最危险的因素是收缩压
D.胆固醇的比数比1.699指的是胆固醇每增加一个秩次,将平均使冠心病
患病率上升1.699倍
E.胆固醇的比数比1.699指的是胆固醇每增加一个秩次,将平均使冠心
病患病率下降1.699倍
四、分析计算题(共3题, 共45分)
1.(15分)某个保健矿泉疗养地做了一个减肥计划的广告,10个人受广告吸引前去治疗,治疗前后每人的体重(为变量X与Y,kg)记录在SAS数据集EXER_05中.试以5%水平检验该治疗对减轻体重是否有效. 要求:
(1)问可应用哪些SAS过程来实现相应的计算?
(2)根据以下SAS运行结果,完成相应的SAS程序;
(3)进行简要的分析说明.
The UNIVARIATE Procedure
Variable: d
Moments
N 10 Sum Weights 10
Mean 1.33 Sum Observations 13.3
Std Deviation 0.73794008 Variance 0.54455556 Skewness -0.435611 Kurtosis -0.5080605
Uncorrected SS 22.59 Corrected SS 4.901 Coeff Variation 55.4842162 Std Error Mean 0.23335714
Basic Statistical Measures
Location Variability
Mean 1.330000 Std Deviation 0.73794
Median 1.400000 Variance 0.54456
Mode . Range 2.30000
Interquartile Range 0.90000
Tests for Location: Mu0=0
Test -Statistic- -----p Value------
Student's t t 5.699418 Pr > |t| 0.0003
Sign M 4.5 Pr >= |M| 0.0039
Signed Rank S 22.5 Pr >= |S| 0.0039
Tests for Normality
Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.96075 Pr < W 0.7944
Kolmogorov-Smirnov D 0.137908 Pr > D >0.1500
Cramer-von Mises W-Sq 0.028982 Pr > W-Sq >0.2500
Anderson-Darling A-Sq 0.19758 Pr > A-Sq >0.2500
[解] (1)可以应用MEANS 过程、TTEST 过程、UNIVARIATE 过程来实现相应的计算。

(2)与所给SAS 运行结果相应的程序为:
data temp;
set exer_05;
d=x-y;
proc univariate normal ;
var d;
run;
(3)SAS 运行结果表明,治疗前后体重之差y x d -= 服从正态分布,相应的t 检验的,6994.5=t ,p 值033.1,05.00003.0>=<=d ,故在显著性水平0.05之下,可认为治疗后的体重显著减轻。

2.(10分) 今用A 、B 两药治疗贫血病人,治疗一个月时测得血中红细胞增加数(X ,36/10mm ).12名性别、年龄及病情基本一致的病人,按A 、B 两药的使用与否分成四组(观察数据在SAS 数据集ERER_808中),问A 、B 两药的治疗效果如何,两药
同时使用的效果如何?要求:
(1)根据以下SAS运行结果,完成相应的SAS程序;
(2)进行简要的分析说明.
The ANOVA Procedure
Class Level Information
Class Levels Values
a 2 0 1
b 2 0 1
Number of Observations Read 12
Number of Observations Used 12
The ANOVA Procedure
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F Model 3 2.96250000 0.98750000 98.75 <.0001 Error 8 0.08000000 0.01000000
Corrected Total 11 3.04250000
R-Square Coeff Var Root MSE y Mean
0.973706 7.843137 0.100000 1.275000
Source DF Anova SS Mean Square F Value Pr > F
a 1 0.90750000 0.90750000 90.75 <.0001
b 1 1.68750000 1.68750000 168.75 <.0001 a*b 1 0.36750000 0.36750000 36.75 0.0003
The ANOVA Procedure
Level of --------------y--------------
a N Mean Std Dev
0 6 1.00000000 0.23664319
1 6 1.55000000 0.60909769
Level of --------------y--------------
b N Mean Std Dev
0 6 0.90000000 0.14142136
1 6 1.65000000 0.50099900
Level of Level of --------------y--------------
a b N Mean Std Dev
0 0 3 0.80000000 0.10000000
0 1 3 1.20000000 0.10000000
1 0 3 1.00000000 0.10000000
1 1 3 2.10000000 0.10000000
[解] (1)与所给SAS运行结果相应的程序为:
proc anova;
class a b;
model y=a b a*b;
means a b a*b;
run;
(2)SAS运行结果表明:在显著性水平0.01下,与不用药组相比,用A药、或用B药、或两药同时使用的治疗效果都有显著差异,而且两药同时使用的治疗效果最佳。

3.(20分) 研究三组饲料对动物所增体重的影响,按配伍组设计将24只大白鼠配成8个配伍组,再将每个配伍组的3只大白鼠随机分入三个饲料组.相应的试验数据存入SAS数据集ERER_27中(进食量X,增加体重Y,单位为g,组别为G),要求比较三种饲料喂养下体重增加是否有差别, 具体地:
(1) 问SAS的ANOVA过程能否实现应的分析计算?如果不能,则可以使用哪一SAS过程?
(2)根据以下SAS运行结果,完成相应的SAS程序;
(3)写出每一喂养方式对应的增重方程,并进行简要的分析说明.
The GLM Procedure
Class Level Information
Class Levels Values
g 3 1 2 3
The GLM Procedure
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 3 4300.199503 1433.399834 16.44 <.0001
Error 20 1743.690080 87.184504
Corrected Total 23 6043.889583
R-Square Coeff Var Root MSE y Mean
0.711495 24.00068 9.337264 38.90417
Source DF Type I SS Mean Square F Value Pr > F
g 2 327.950833 163.975417 1.88 0.1785
x 1 3972.248670 3972.248670 45.56 <.0001
Source DF Type III SS Mean Square F Value Pr > F
g 2 330.635426 165.317713 1.90 0.1762
x 1 3972.248670 3972.248670 45.56 <.0001
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept -33.51315954 B 11.90061110 -2.82 0.0107
g 1 -9.01250000 B 4.66863213 -1.93 0.0679
g 2 -5.54325966 B 4.66881742 -1.19 0.2490
g 3 0.00000000 B . . .
x 0.29553649 0.04378371 6.75 <.0001
[解] (1)ANOVA 过程不能实现相应的分析计算,需要使用GLM 过程。

(2)与所给SAS 运行结果相应的程序为:
proc glm ;
class g;
model y=g x/solution p ;
run ;
(3)由方差分析的结果可看出:在显著性水平为0.05之下,喂养方式的增重效果没有显著性差异,但进食量X 对增重量Y 有显著影响。

三种喂养方式的增重方程为:
,2955.05132.33ˆX Y
+-= 7115.02=R 。

这意味着,光用进食量解释增重量的变动,只能解释其中的71.15%,而且进食量每增加一个单位,则将平均增重0.2955g.。

相关文档
最新文档