多元Logistic回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、什么是Logistic 回归分析? 研究因变量y取某个值的概率变量p与 自变量x的依存关系。 p=p(y=1|x)=f(x)
7
2、Logistic回归分析的分类
• 按数据的类型:
Logistic回归分析
o 非条件logistic回归分析(成组数据)
o 条件logistic回归分析(配对病例-对照数据)
• 按因变量取值个数:
o 二值logistic回归分析
o 多值logistic回归分析
• 按自变量个数:
o 一元logistic回归分析
o 多元logistic回归分析
8
第二节 Logistic 回归分析的数学模型
(1) 二值一元logistic回归模型: 令y是1,0变量,x是任
意变量,p=p(y=1|x) ,那么,二值变量y关于 变量x的一元logistic 回归 模型是:
注意:对于二值Logistic回归模型,Y=0的模型是:
p = p(y=0|x1,…,xk ) = 1 - p(y=1|x1,…,xk)
10
Logistic 回归模型的另外一种形式 它给出变量z=logit(p)关于x 的线性函数。
11
(3) 多值logistic回归模型:
例如,当y取值1,2,3时,logistic回归模型是:
P1 = p(y=1) = P1 P1=
P2=
P2 = p(y=2) =P2-P1
P3= p(y≤3 | x) = 1 - P2 累积概率模型
P3 = p(y=3) =1-P2 独立概率模型
12
第三节 Logistic回归分析方法步骤
1、估计参数 ---- 最大似然法 2、检验参数的显著性
H0: βj=0 vs H1: βj≠0 3、检验模型的显著性
and
Criterion
Only
Covariates Chi-Square for Covariates
AIC
148.262
146.686
.
SC
147.648
145.458
.
-2 LOG L
146.262
142.686
3.576 with 1 DF (p=0.0586)
Score
.
.
4.224 with 1 DF (p=0.0399)
15
The LOGISTIC Procedure Data Set: WORK.EG7_1A Response Variable: Y Response Levels: 2 Number of Observations: 4 Weight Variable: WT Sum of Weights: 295 Link Function: Logit
第七章
多元Logistic 回归分析
Multiple Logistic Regression Analysis
1
主要内容
➢ Logistic 回归分析的基本概念 ➢ Logistic 回归分析的数学模型 ➢ Logistic 回归模型的建立和检验 ➢ Logistic 回归系数的解释 ➢ 配对病例-对照数据的logistic回归分析
Response Profile
Ordered
Total
Value
Y Count
Weight
1
1
2
20.00000
2
0
2 275.00000
16
Model Fitting Information and Testing Global Null Hypothesis BETA=0
Intercept
Intercept
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald
Pr > Standardized
Variable DF Estimate Error Chi-Square Chi-Square Estimate
2
回忆:
回归分析的分类
一个 因变 量y
连续型因变量 (y) --- 线性回归分析 分类型因变量 (y) ---Logistic 回归分析 生存时间因变量 (t) ---生存风险回归分析 时间序列因变量 (t) ---时间序列分析
多个因变量 (y1,y2…yk)
路径分析 结构方程模型分析
3
医学研究中经常遇到分类型变量
H0: β1=…=βk=0 vs H1: βj≠0 4、解释参数的实际意义
13
例1、自变量是二值分类型变量 某医院为了研究导致手术切口感染的原因,收集了295例手术 者情况,其中,手术时间小于或等于5小时的有242例,感染者 13例;手术时间大于5小时的有53例,感染者7例。试建立手术 切口感染(y)关于手术时间(x)的logistic回归模型。
效等不同的效果?
是回归分析问题: Y=f(x)
5
如何解决这样的问题?
不能直接分析 变量y与x的关系
y取某个值的概 率变量p与x 的 关系
Logistic回归模型
y=f(x) y=1,0 x任意
p=p(y=1|x)=f(x)ห้องสมุดไป่ตู้0≤p≤1, x任意
存在,且不唯一
6
第一节 Logistic 回归分析的概念
>
0 (≤
7
4163
46
25239
53
242
14
data eg7_1a; input y x wt @@; cards;
11 7 1 0 13 0 1 46 0 0 229 ; run; proc logistic descending ;
model y=x ; weight wt; run;
SAS程序
其中,α和β是未知参数或待估计的回归系数。该模型描述 了y取某个值(这里y=1)的概率p与自变量x之间的关系。
9
(2) 二值多元logistic回归模型: 令y是1,0变量,x1,x2,…,xk是任意k个变量; p=p(y=1|x1,x2,…,xk),那么,变量y关于变量x1,x2,…,xk 的k元logistic回归模型是:
• 二分类变量: o 生存与死亡 o 有病与无病 o 有效与无效 o 感染与未感染
• 多分类有序变量: o 疾病程度(轻度、中度、重度) o 治愈效果(治愈、显效、好转、无效)
• 多分类无序变量: o 手术方法(A、B、C) o 就诊医院(甲、乙、丙、丁)
4
医学研究者经常关心的问题
• 哪些因素导致了人群中有的人患胃癌而有的人不患胃癌? • 哪些因素导致了手术后有的人感染,而有的人不感染? • 哪些因素导致了某种治疗方法出现治愈、显效、好转、无
7
2、Logistic回归分析的分类
• 按数据的类型:
Logistic回归分析
o 非条件logistic回归分析(成组数据)
o 条件logistic回归分析(配对病例-对照数据)
• 按因变量取值个数:
o 二值logistic回归分析
o 多值logistic回归分析
• 按自变量个数:
o 一元logistic回归分析
o 多元logistic回归分析
8
第二节 Logistic 回归分析的数学模型
(1) 二值一元logistic回归模型: 令y是1,0变量,x是任
意变量,p=p(y=1|x) ,那么,二值变量y关于 变量x的一元logistic 回归 模型是:
注意:对于二值Logistic回归模型,Y=0的模型是:
p = p(y=0|x1,…,xk ) = 1 - p(y=1|x1,…,xk)
10
Logistic 回归模型的另外一种形式 它给出变量z=logit(p)关于x 的线性函数。
11
(3) 多值logistic回归模型:
例如,当y取值1,2,3时,logistic回归模型是:
P1 = p(y=1) = P1 P1=
P2=
P2 = p(y=2) =P2-P1
P3= p(y≤3 | x) = 1 - P2 累积概率模型
P3 = p(y=3) =1-P2 独立概率模型
12
第三节 Logistic回归分析方法步骤
1、估计参数 ---- 最大似然法 2、检验参数的显著性
H0: βj=0 vs H1: βj≠0 3、检验模型的显著性
and
Criterion
Only
Covariates Chi-Square for Covariates
AIC
148.262
146.686
.
SC
147.648
145.458
.
-2 LOG L
146.262
142.686
3.576 with 1 DF (p=0.0586)
Score
.
.
4.224 with 1 DF (p=0.0399)
15
The LOGISTIC Procedure Data Set: WORK.EG7_1A Response Variable: Y Response Levels: 2 Number of Observations: 4 Weight Variable: WT Sum of Weights: 295 Link Function: Logit
第七章
多元Logistic 回归分析
Multiple Logistic Regression Analysis
1
主要内容
➢ Logistic 回归分析的基本概念 ➢ Logistic 回归分析的数学模型 ➢ Logistic 回归模型的建立和检验 ➢ Logistic 回归系数的解释 ➢ 配对病例-对照数据的logistic回归分析
Response Profile
Ordered
Total
Value
Y Count
Weight
1
1
2
20.00000
2
0
2 275.00000
16
Model Fitting Information and Testing Global Null Hypothesis BETA=0
Intercept
Intercept
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald
Pr > Standardized
Variable DF Estimate Error Chi-Square Chi-Square Estimate
2
回忆:
回归分析的分类
一个 因变 量y
连续型因变量 (y) --- 线性回归分析 分类型因变量 (y) ---Logistic 回归分析 生存时间因变量 (t) ---生存风险回归分析 时间序列因变量 (t) ---时间序列分析
多个因变量 (y1,y2…yk)
路径分析 结构方程模型分析
3
医学研究中经常遇到分类型变量
H0: β1=…=βk=0 vs H1: βj≠0 4、解释参数的实际意义
13
例1、自变量是二值分类型变量 某医院为了研究导致手术切口感染的原因,收集了295例手术 者情况,其中,手术时间小于或等于5小时的有242例,感染者 13例;手术时间大于5小时的有53例,感染者7例。试建立手术 切口感染(y)关于手术时间(x)的logistic回归模型。
效等不同的效果?
是回归分析问题: Y=f(x)
5
如何解决这样的问题?
不能直接分析 变量y与x的关系
y取某个值的概 率变量p与x 的 关系
Logistic回归模型
y=f(x) y=1,0 x任意
p=p(y=1|x)=f(x)ห้องสมุดไป่ตู้0≤p≤1, x任意
存在,且不唯一
6
第一节 Logistic 回归分析的概念
>
0 (≤
7
4163
46
25239
53
242
14
data eg7_1a; input y x wt @@; cards;
11 7 1 0 13 0 1 46 0 0 229 ; run; proc logistic descending ;
model y=x ; weight wt; run;
SAS程序
其中,α和β是未知参数或待估计的回归系数。该模型描述 了y取某个值(这里y=1)的概率p与自变量x之间的关系。
9
(2) 二值多元logistic回归模型: 令y是1,0变量,x1,x2,…,xk是任意k个变量; p=p(y=1|x1,x2,…,xk),那么,变量y关于变量x1,x2,…,xk 的k元logistic回归模型是:
• 二分类变量: o 生存与死亡 o 有病与无病 o 有效与无效 o 感染与未感染
• 多分类有序变量: o 疾病程度(轻度、中度、重度) o 治愈效果(治愈、显效、好转、无效)
• 多分类无序变量: o 手术方法(A、B、C) o 就诊医院(甲、乙、丙、丁)
4
医学研究者经常关心的问题
• 哪些因素导致了人群中有的人患胃癌而有的人不患胃癌? • 哪些因素导致了手术后有的人感染,而有的人不感染? • 哪些因素导致了某种治疗方法出现治愈、显效、好转、无