[数学]有关SAS统计检验的模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第4章 SAS 基本统计分析功能

教学要求:

● 了解几种假设检验、线性回归、方差分析、拟合优度检验、列联表检验的原理背景 ● 掌握SAS 语言进行均值假设检验

● 掌握SAS 语言进行线性回归与方差分析

● 掌握SAS 语言进行拟合优度检验与列联表检验

引言:前面介绍SAS 的编程来进行初步的统计分析、报表、绘图。本章我们讲述用SAS 进行统计检验、线性回归、方差分析、拟合优度检验和列联表检验。

4.1 假设检验

4.1.1 正态性检验(univariate 过程)

1.背景原理:正态分布是一种最常见的分布,也是一种最重要的连续型分布,它以均值为对称轴呈对称的钟型分布。检验的零假设Ho :数据资料服从正态分布。备择假设H1:数据资料不服从正态分布。

当样本量n ≤2000时,应选用shapiro-wilk 检验法,检验统计量为

22(1)()/()i x i i i W a X X X X --=--∑∑

W 值越接近于1,P 值越大,表明资料越服从正态分布,反之W 越偏离1,P 值越小,表明资料越不服从正态分布。

当n>2000时,应用Kolmogorov-smirnov 检验法,检验统计量为

{}11max ()(),()()n i n i i n

D f X F x f X F x -≤≤=--

D 值越大,P 值越小,表明资料越不服从正态分布,反之,D 值越小,P 值越大,表明资料越服从正态分布。 2.举例

在proc univariate 语句中加上normal 选项可以进行正态性检验。 【例1】检验数据集sasuser.gpa 中变量gpa 是否服从正态分布?

输出结果中正态检验部分为:

分析:检验的零假设为Ho :gpa 变量服从正态分布,其中shapiro-wilk 检验的统计量为w=0.966294,检验的p 值小于0.0001,当然小于给定的显著性水平α=0.05,故应拒绝零假设,即有95%把握认为gpa 非正态。

说明:使用SAS 软件中的“分析家”,打开数据集后,利用菜单“统计”→ “描述性统计”→“分布”,除了可以检验变量是否服从正态分布外,还可以检验对数正态、指数和韦布尔分布。

4.1.2 单样本均值的T 检验(univariate 过程)

1.原理背景

设总体X~N(μ,σ2),μ、σ2未知,给定检验水平α,对常数μ0要检验

010

0::μμμμ≠↔

=H H

设X1,X2,…Xn 为X 的简单随机样本,在H0成立时有

)1(~/0--=

n t n

S X t μ

其中S 为变量的标准差,n 为样本量。检验的拒绝域为:{}

)1(->=n t t W α 补充P 值检验法:

分位数t 1-α/2(n-1)满足 Pr{|t|> t 1-α/2(n-1)}= α

设由已经得到的样本具体计算得到的t 值为t 0,若|t 0|> t 1-α/2(n-1),则拒绝H 0,否则接受H 0。对大量重复试验而言,t 是随机变量,且服从t 分布t (n-1)。当|t 0|< t 1-α/2(n-1)时,有

Pr{|t|> t 0}>Pr{|t|> t 1-α/2(n-1)}= α 反之亦然。令p= Pr{|t|> t 0},则|t 0|α

所以,假设检验的p 值方法为:对给定的显著水平α,当p<α时,拒绝H 0,当p>α时,接受H 0

此例介绍的p 值检验法对其他统计检验也使用,一般说来,检验的p 值是检验统计量取其观测值及更极端值得概率,统计软件对假设检验都会计算检验的p 值。

2.应用举例

在SAS 中用univariate 过程默认进行某个变量均值为零(μ0=0)的t 检验,若要检验μ=μ0,则需进行变量代换。

例2:检验数据集sasuser.class 中学生的身高均值与63有无显著性差异。

程序:

t 1-α/2(n-1)

α/2

t 0 p/2

输出结果为:

分析:先作正态性检验。Ho:变量y服从正态分布,其中shapiro-wilk检验的统计量为w=0.979083,检验的p值=0.9312>α=0.05,故应接受零假设,即有95%把握认为变量y正态。

故采用单样本均值T检验。对变量y的零假设为Ho:μ0=0。由输出结果知T检验的统计量t=-0.5638,双边检验的p值为0.5798>α=0.05,故接受原假设,即有95%的把握接受学生的平均身高为63。

说明:

当变量服从正态分布时,优先采用t检验,当变量服从非正态时,可以采用符号秩(signed Rank)检

验,符号检验(sign)的检验功效较差,一般不常用它。

对同一问题不同的检验方法一般是一致的,但有时也有互相矛盾的结果。

使用SAS软件中的分析家,打开数据集后,利用菜单“统计”→“假设检验”→“均值的单样本T检

验”可以进行双边和单边检验。

4.1.3 两独立样本均值检验(TTest过程、npar1way过程)

1.原理背景

假设两组样本来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。如果两个总体都服

从正态分布,则可使用两独立样本均值的T 检验。有关公式如下:

设两个样本的均值为12,X X ,方差为12,S S ,观测量为12,n n 。两个样本方差相等与不相等时使用的检验统计量是不一样的,所以应该先对方差的齐性进行检验。

● 方差齐性检验的零假设为H0:两个独立样本的来自方差相等的总体,即2212σσ=,检验统计量为

121212Max(,)(1,1)Min(,)

S S F F n n S S =

--

● 方差齐时,检验两样本的均值是否相同的零假设为H 0:两个独立样本的来自均值相等的总体,即

12μμ=

,检验统计量为12(2)t t n n =+-

其中c S =为合并方差。

● 方差不齐时,检验两样本的均值是否相同,用校正t 检验。检验零假设为H0:两个独立样本的来自

均值相等的总体,即1

2μμ=,检验统计量为

12(2)t t n n =

+-

2.Ttest 过程

格式:PROC TTEST [选项]; CLASS 变量名; V AR 变量名; BY 变量名; RUN; 说明:

(1)proc 语句中的“选项”有: Data=数据集,指明要分析的数据集;

Cochran 要求在方差不齐时用Cochran 和Cox 法计算t ’检验的概率水平;

(2)Class 语句中的变量必须是一个两水平的分组变量,系统会把数据集中的观测按这个变量的两个水平分成比较的两组。

(3)by 语句和var 语句作用同前。

【例3】某克山病区测得11例克山病人与13名健康人的血磷值(mmol/L )如表,据此判断该地急性克山病人与健康人的血磷值是否相同?

患者组 0.84 1.05 1.2 1.39 1.53 1.67 1.8 1.87 2.07 2.11 健康组

0.54

0.64

0.64

0.76

0.81

1.16 1.2

1.34

1.35

1.48

1.58

1.87

程序为:

相关文档
最新文档