SAS统计分析(第八讲)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Criterion 判断的准则 AIC SC -2 Log L
Test
Testing Global Null Hypothesis: BETA=0 整体偏回归系数为0 的假设检验 Chi-Square DF Pr > ChiSq 14.1312 16.2465 15.2378 1 1 1 0.0002 <.0001 <.0001
应变量Y只能取值为1和0。不符合线性回归模型中应变量Y应具有
正态分布和方差齐性的要求,同时线性回归模型得到的Y值会出 现大于1或小于0的不合理结果,显然不能用线性回归建立预测模 型。
2016/8/27 2
1. logit变换 以发病为例,发病的概率为P,不发病的概 率为1-P,0≤P≤1。自变量(协变量)为X1,X2,┄, Xm 。
我们对线性回归做一变换,令
P ln y a j X j 1 P
公式等号左边简称为logit(P),即logit(P)=y= a+Σβj Xj 上式可推导为:
ey P 1 e y
p 证明:因为 ey 1 p
1 1 P 1 e y
p (1 p)e e pe
最优子集法。缺省时为none,拟合全回归模型。
sle=概率值 指定变量进人模型的显著水平,缺省为0.05。
sls=概率值 指定变量剔除模型的显著水平,缺省为0.05。
scale=none aggregate 要求对模型进行拟合优度检验。
noint 回归模型中不包括截距。
2016/8/27
output语句创建一个新的SAS数据集,其含有每个个体的 原始数据, pred|p=变量名为在out=数据集中含有每个个体 预测概率。
2016/8/27 11
【Proc语句的[选项]】
data=数据集 order=data 规定按照数据集中反应变量水平出现的先 后顺序进行运算。 descending(或des) 规定按照反应变量降序水平进行运 算。 注意:以上两个选项非常重要,如死亡为1,存活为0, 为了得到死亡对存活的概率(或者说是死亡的危险),应选
Number of Observations: 4 观察值为4 Frequency Variable: F Link Function: Logit Optimization Technique 频数变量为F 联系函数为logit Fisher‘s scoring 优化技术Fisher‘s评分
Response Profile 反应变量的描述 Ordered 顺序值 Value Y Total Frequency 总频数
p0 p1 ea OR / a e 1 p1 1 p0 e
2016/8/27 15
程序 1
data a; do x=1 to 0 by -1; do y=1 to 0 by -1; input f @@; output; end; end; cards; 27 95 44 443 ; proc logistic des; /*按降序水平进行运算*/ freq f; model y=x; Output out=b1 p=pr; /*在数据集b1中含有每个个体的预
择此两个选项之一,否则得到的是存活对死亡的概率,因为
logistic回归模型是自动按反应变量值为小的来拟合方程的。 反之,如果死亡为0,存活为1,可不选此两项之一,
2016/8/27 12
【 model语句的/[选项] 】 selection=forward(或f)| backward(或b) | stepwise (或s) | score 规定变量的筛选方法,分别为向前、向后、逐步和
1.688
4.852
19
Association of Predicted Probabilities and Observed Responses 预测概率与观察反应变量间的关联度
Percent Concordant 和谐百分比 31.3 Somers‘ D 0.204 4个指标的 绝对值越
Percent Discordant
0.1581 0.2693
Wald Chi-Square
213.4609 15.2378
Pr > ChiSq <.0001 <.0001
Odds Ratio Estimates Point Estimate 95% Wald Confidence Limits
Effect
x
2016/8/27
2.862
测概率值*/ proc print data=b1; run;
2016/8/27 16
The SAS System The LOGISTIC Procedure Data Set: WORK.A 数据集名
Response Variable: Y
Response Levels: 2
反应变量
反应变量水平数2
1
27
1
0.22132
2
3 4
1
0 0
0
1 0
95Leabharlann Baidu
44 443
1
1 1
0.22132
0.09035 0.09035
2016/8/27
21
例2 为研究内源性儿茶酚胺水平(X2),与冠心病(D) 发病的关系,分别随访儿茶酚胺水平高和低两组人群7年期间 冠心病发病数,见表9.3。在分析时需考虑年龄(X1)的混杂作 用,试作Logistic回归分析。
2016/8/27 9

Logistic回归的分类
2. 多分类有序反应变量的Logistic回归 (在SAS中调用 logistic模块进行统计)。 3. 多分类无序反应变量的Logistic回归 (在SAS中9.1以 前版本调用Catmod模块进行统计, 9.1以后版本调用 logistic模块进行统计)。
评价治疗措施;
毒物的半数效量和联合作用
2016/8/27
8

Logistic回归的分类
按应变量的类型分类为: 1. 两分类反应变量的Logistic回归 非条件logistic回归 即研究对象未经过配对。(在 SAS中调用logistic模块进行统计)。 条件logistic回归 即在配对病例对照研究中的1:1和 1:M及N:M配对。(在SAS中9.1以前版本调用Phreg模 块进行统计;9.1以后版本调用logistic模块进行统 计)。
22
data b; do x1=0,1; do x2=1,0; do d=1,0; input f @@; output; end; end; end; cards; 4 21 24 309 23 74 20 134 ; proc logistic des; freq f; model d=x1 x2/scale=none aggregate;
y y
y
p pe y e y
2016/8/27
p(1 e y ) e y

ey p 1 e y
3
可证明,无论y得何值,均0<P<1。当y= - ∞时,P=0,
当y=∞时,P=1,当y=0时,P=0.5。
P
e
a j X j a j X j
1 P
1 1 e
a j X j
1 e
2016/8/27
4
2. 比数比(OR)的估计
OR j e
j
当发病率P接近0时,OR可作为RR的近似估计值。
OR j的意义是当某一危险因素X j暴露时是非暴露时发病倍数;
或危险因素X j增加一个单位时发病危险度的倍数。
当βj=0时,ORj=1,说明因素Xj对疾病发生不起作用;当βj>0 时, ORj >1,说明Xj是一个危险因子;当βj<0时, ORj <1, 说明Xj是一个保护因子。
2016/8/27 5
综合的OR值为:
X*为暴露或高一等级;X为未暴露或低一等级。
OR e
ORj的1-α可信区间为:
j ( X * j X j )
e
( j u / 2 S j )
S j 为回归系数βj 的标准误。
3. Logistic回归模型的假设检验
2016/8/27
6
(1)似然比检验
G 2(ln Lk 1 ln LK )
k=0,1,┄,m。m为自变量的个数 。G近似服从自由度
为ν(ν=m-k)的χ2分布,当
变量对回归有统计学意义。 (2). Wald检验
2 2 时,表示新加入的 k个自 ,
Wald检验时将回归方程中各参数的估计值βj与0的比较, 统计量为
1
2
2016/8/27
1
0
71
538
17
Model Fit Statistics 模型拟合统计
Intercept Only 仅有截距 440.558 444.970 438.558 Intercept and Covariates 所有变量 428.427 指标越小表示 437.251 模型拟合的越 424.427 好
2016/8/27
10

非条件Logistic回归
语法格式 Proc logistic [选项] ; model 应变量名=自变量名列 / [选项] ; [freq 变量名];可选项,指明频数变量。
[Class 分类变量名/param= ref ] ;分类变量自动产生哑 变量。
[output out=数据集 pred|p=变量名];
SAS统计分析
第八讲 景学安
2016/8/27
1
第十二章 Logistic回归模型
简介 Logistic回归模型是适用于应变量(因变量)为分类变量的回 归分析。当应变量为分类变量时,如应变量结果为二分类变量的 发病、不发病;生存、死亡等,是不能用多元线性回归模型 (Y=a+Σβj Xj)来分析各种危险因素与应变量之间的关系的。因为
/*选项为对模型进行拟合优度检验*/ Output out=b1 p=pr; /*在数据集b1中含有每个个体的预测概率值*/
proc print data=b1; run;
2016/8/27 23
The LOGISTIC Procedure
儿茶酚胺高水平组发病是低水平组发病的比数比为:
OR p p1 0.2213 / 0.7787 / 0 2.8615 1 p1 1 p0 0.0903 / 0.9097
或 又因为
27 443 OR 2.8615 95 44
p e a x 1 p
高水平组x=1,低水平组x=0。
Likelihood Ratio Score Wald
2016/8/27
18
Analysis of Maximum Likelihood Estimates 最大似然法估计值分析
Parameter Intercept x
DF 1 1
Estimate -2.3094 1.0514
Standard Error
表2 按年龄分层的儿茶酚胺水平和冠心病的关系 年龄(X1) 儿茶酚胺(X2) 发病(D=1) 未发病(D=0) 合计
<55岁 (X1=0)
≥55岁 (X1=1)
高(X2=1) 低(X2=0)
高(X2=1) 低(X2=0)
4 24
23 20
21 309
74 134
25 333
97 154
2016/8/27
13
自变量为两分类变量的Logistic回归分析 例1
表1 儿茶酚胺水平与冠心病发病关系病例对照研究资料
发病(y=1) 不发病(y=0) 合计
儿茶酚胺水平(x)
高(x=1)
低(x=0) 合计
27
44 71
95
443 538
122
487 609
2016/8/27
14
本例 p1=27/122,1-p1=95/122, p0=44/487, 1-p0=443/487,
不和谐百分比 Percent Tied 结点百分比 Pairs
10.9
57.7 38198
Gamma
Tau-a c
0.482
0.042 0.602
大,表示预
测概率与反 应变量的关 联度越高
对子数(等于反应变量为0的例数乘以反应变量为1的例数)
2016/8/27
20
Obs
x
y
f
_LEVEL_
pr
1
1
j 2 S j
2
χ2近似服从自由度ν=1的χ2分布
2016/8/27 7

Logistic回归的应用
logistic回归在流行病学和临床流行病学等方面应用广泛,
既可用于前瞻性的队列研究,又可用于回顾性的病例对照研究。
常用于: 病因学分析; 预后分析; 鉴别诊断;
相关文档
最新文档