做logistic回归ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
分类
按因变量性质,可分为二分类、无序 多分类、有序多分类。
按是否匹配可分为非条件和条件 logistic回归。
3
Stata软件专门有一组命令用于做不同 类型的logistic回归,例如:logit、 blogit、glogit、clogit、mlogit、 ologit。
4
1.Logistic 回归
19
条件logistic 回归
非条件logistic 回归适用于平行组设计的病例对照研究,队列研究,而不适用于配比设计的 病例-对照研究。对于配比的病例-对照研究资 料需要用条件logistic 回归。其命令为:
clogit 因变量 [自变量] , group(配比变量) [ level(#) or ]
4: est est=0 未使用过雌激素, est=1:使用 过雌激素
5: dose 剂量:dose=0:未使用过, dose=1:0.1-0.299(mg/day)
6: drug drug=0:未使用其他药物, 21
22
首先,使用ht、est、drug 三个变量 作条件logistic 回归。 . clogit y ht est drug, group(match)
18
1. 用逐步后退法,剔选变量的概率 为:pe(0.05),pr(0.06),结果 如下:
sw logit y x1 x2 x3, pe(0.05) pr(0.06)
2. 用逐步前进法,剔选变量的概率 不变,结果如下:
sw logit y x1 x2 x3, pr(0.06) pe(0.05) forward
命令: logit 因变量 [自变量] [,选择项]
在进行logistic 回归时要注意资料的形式。通常, 用于logistic 回归的资料有三种形式: (1) 分水平频数资料,一般自变量较少,且均为分 类变量,常以各变量(包括因变量、自变量)各水平 的组合的频数表形式出现。如例1。拟合时仍用上述 命令,只是命令中增加[fw=频数变量]选择项。
25
用于多类结果的logistic 回归的 命令是mlogit。
mlogit [因变量 [自变量]] [, base (#) constraints(clist) level(#) rrr ]
26
例5 产后大出血分为两大类:即宫缩乏力性 (称为子宫因素)及胎盘因素。在产后大出
血与有无妊高症x1及有无人流史x2的关
其中group()是必选项,它是用来区分各配比 组的。level(#)及or 的意义同logit。
20
的研究中,运用了1:4 的病例-对照研 究,配比因素为年龄,共调查了20 对,100 例。
各变量定义如下:
1: match 配比组
2: y y=1:病例, y=0:对照
3: ht ht=0:无高血压, ht=1:有高血压
归方程,并说明Байду номын сангаас归系数与OR 的关
系。
7
8
9
10
11
12
13
也可以用logit命令
14
15
16
可以利用例3做逐步回归
Stata 用于逐步回归分析的命令是在要执行的 命令前增加sw 。
sw 回归命令 [因变量[自变量]], 筛选变量 的P 值 [选择项]
其中,筛选变量的P 值有3 种组合
结果显示,患高血压(ht)及使用其他药物 (drug)与子宫内膜癌无关,而使用过雌激素 者患子宫内膜癌的可能性比未使用过雌激素 者大。因此,可以进一步考虑剂量-反应关系。 变量剂量(dose)可以按两种方法处理,先按 线性形式进入模型,再以哑变量形式进入模 型,并比较两者的结果。
clogit y ht dose drug, group(match) 23
5
(2) 分组频数资料,一般自变量较少,且均 为分类变量,常以各自变量(不包括因变量) 各水平的组合的频数表形式出现,因变量 常表达为分子与分母。如例2。用下列命令:
blogit 阳性数变量 总观察数变量 [,logit 命令选择项]
或 glogit 阳性数变量 总观察数变量 [, level(#) or]
应用Stata做logistic回归
1
实际生活中经常会遇到因变量只有0和1的二分类变 量,不能满足正态性和方差齐性,故不能直接使用线 性模型来拟合方程。
Logistic回归正是处理因变量是二分类或多分类变量 的一种方法。现已广泛应用于队列研究,病例对照研 究和试验性研究,成为分类因变量的首选多变量分析 模型。
结果显示,随着剂量的上升,服用 雌激素与患内膜癌间的联系也明显 上升,呈现出明显的剂量-反应关 系。这种关系是否为线性的? dose 用哑变量形式是否更好?
xi : clogit y ht i.dose drug, group(match)
24
多类结果的logistic回 归
在医学研究中,常常会遇到结果变 量是多分类的情况,如同一种肿 瘤的不同亚型;病例-对照研究中 的一个对照组,两个或多个病例 组;或一个病例组,两个或多个 对照组,如医院对照和健康人群 对照等。
(3) 个体水平资料,即一个观察对象一条记 录。如例3,直接使用logit 命令估计即可。
拟合模型后可以用指令predict 得到预测概 率,然后进行模型诊断、应用等。
6
例1 本例是探讨妇女使用雌激素与患 子宫内膜癌之间关系的病例-对照研 究资料,见表1
,请计算OR 及其95%可信区间。再
用logistic 回归估计参数,写出回
系研究中,将产后出血量<400ml的产妇 作为对照,出血量>400ml的作为病例, 并分为上述两类,共调查了933人,其中 子宫因素出血的155人,胎盘因素出血的 33人,对照745人。结果见表5。
pr(#) /* 后退法
pe(#) /* 向前法
pr(#) pe(#) /* 逐步后退法
pr(#) pe(#) forward /* 逐步向前法
17
pr(#)是剔除变量的P 值,pe(#)是选入 变量的P 值,如果只选pr(#),则表示用
后退法,如果同时选用pr(#)和pe(#)表 示逐步法。应用时,为防止计算进入死 循环,pr(#)须略大于pe(#)。例如, pe(0.05),pr(0.051)。
分类
按因变量性质,可分为二分类、无序 多分类、有序多分类。
按是否匹配可分为非条件和条件 logistic回归。
3
Stata软件专门有一组命令用于做不同 类型的logistic回归,例如:logit、 blogit、glogit、clogit、mlogit、 ologit。
4
1.Logistic 回归
19
条件logistic 回归
非条件logistic 回归适用于平行组设计的病例对照研究,队列研究,而不适用于配比设计的 病例-对照研究。对于配比的病例-对照研究资 料需要用条件logistic 回归。其命令为:
clogit 因变量 [自变量] , group(配比变量) [ level(#) or ]
4: est est=0 未使用过雌激素, est=1:使用 过雌激素
5: dose 剂量:dose=0:未使用过, dose=1:0.1-0.299(mg/day)
6: drug drug=0:未使用其他药物, 21
22
首先,使用ht、est、drug 三个变量 作条件logistic 回归。 . clogit y ht est drug, group(match)
18
1. 用逐步后退法,剔选变量的概率 为:pe(0.05),pr(0.06),结果 如下:
sw logit y x1 x2 x3, pe(0.05) pr(0.06)
2. 用逐步前进法,剔选变量的概率 不变,结果如下:
sw logit y x1 x2 x3, pr(0.06) pe(0.05) forward
命令: logit 因变量 [自变量] [,选择项]
在进行logistic 回归时要注意资料的形式。通常, 用于logistic 回归的资料有三种形式: (1) 分水平频数资料,一般自变量较少,且均为分 类变量,常以各变量(包括因变量、自变量)各水平 的组合的频数表形式出现。如例1。拟合时仍用上述 命令,只是命令中增加[fw=频数变量]选择项。
25
用于多类结果的logistic 回归的 命令是mlogit。
mlogit [因变量 [自变量]] [, base (#) constraints(clist) level(#) rrr ]
26
例5 产后大出血分为两大类:即宫缩乏力性 (称为子宫因素)及胎盘因素。在产后大出
血与有无妊高症x1及有无人流史x2的关
其中group()是必选项,它是用来区分各配比 组的。level(#)及or 的意义同logit。
20
的研究中,运用了1:4 的病例-对照研 究,配比因素为年龄,共调查了20 对,100 例。
各变量定义如下:
1: match 配比组
2: y y=1:病例, y=0:对照
3: ht ht=0:无高血压, ht=1:有高血压
归方程,并说明Байду номын сангаас归系数与OR 的关
系。
7
8
9
10
11
12
13
也可以用logit命令
14
15
16
可以利用例3做逐步回归
Stata 用于逐步回归分析的命令是在要执行的 命令前增加sw 。
sw 回归命令 [因变量[自变量]], 筛选变量 的P 值 [选择项]
其中,筛选变量的P 值有3 种组合
结果显示,患高血压(ht)及使用其他药物 (drug)与子宫内膜癌无关,而使用过雌激素 者患子宫内膜癌的可能性比未使用过雌激素 者大。因此,可以进一步考虑剂量-反应关系。 变量剂量(dose)可以按两种方法处理,先按 线性形式进入模型,再以哑变量形式进入模 型,并比较两者的结果。
clogit y ht dose drug, group(match) 23
5
(2) 分组频数资料,一般自变量较少,且均 为分类变量,常以各自变量(不包括因变量) 各水平的组合的频数表形式出现,因变量 常表达为分子与分母。如例2。用下列命令:
blogit 阳性数变量 总观察数变量 [,logit 命令选择项]
或 glogit 阳性数变量 总观察数变量 [, level(#) or]
应用Stata做logistic回归
1
实际生活中经常会遇到因变量只有0和1的二分类变 量,不能满足正态性和方差齐性,故不能直接使用线 性模型来拟合方程。
Logistic回归正是处理因变量是二分类或多分类变量 的一种方法。现已广泛应用于队列研究,病例对照研 究和试验性研究,成为分类因变量的首选多变量分析 模型。
结果显示,随着剂量的上升,服用 雌激素与患内膜癌间的联系也明显 上升,呈现出明显的剂量-反应关 系。这种关系是否为线性的? dose 用哑变量形式是否更好?
xi : clogit y ht i.dose drug, group(match)
24
多类结果的logistic回 归
在医学研究中,常常会遇到结果变 量是多分类的情况,如同一种肿 瘤的不同亚型;病例-对照研究中 的一个对照组,两个或多个病例 组;或一个病例组,两个或多个 对照组,如医院对照和健康人群 对照等。
(3) 个体水平资料,即一个观察对象一条记 录。如例3,直接使用logit 命令估计即可。
拟合模型后可以用指令predict 得到预测概 率,然后进行模型诊断、应用等。
6
例1 本例是探讨妇女使用雌激素与患 子宫内膜癌之间关系的病例-对照研 究资料,见表1
,请计算OR 及其95%可信区间。再
用logistic 回归估计参数,写出回
系研究中,将产后出血量<400ml的产妇 作为对照,出血量>400ml的作为病例, 并分为上述两类,共调查了933人,其中 子宫因素出血的155人,胎盘因素出血的 33人,对照745人。结果见表5。
pr(#) /* 后退法
pe(#) /* 向前法
pr(#) pe(#) /* 逐步后退法
pr(#) pe(#) forward /* 逐步向前法
17
pr(#)是剔除变量的P 值,pe(#)是选入 变量的P 值,如果只选pr(#),则表示用
后退法,如果同时选用pr(#)和pe(#)表 示逐步法。应用时,为防止计算进入死 循环,pr(#)须略大于pe(#)。例如, pe(0.05),pr(0.051)。