流行病学常用多因素回归统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
25
因素筛选注意事项
如果有变量的引入导致具有关键作用的因子其统计学意义 发生改变(从无到有,或从有到无),必须发现原因!
是否由于样本量过少,变量过多导致 是否存在多重共线性 是否属于混杂因素 是否属于中间变量: 回归模型不能同时纳入影响因素及其
中间变量
26
多重共线性问题
多重共线性是指在进行多因素回归分析时,自变量间存在较强的线 性相关关系。共线关系的存在,可使得估计系数方差加大,系数估 计不稳,结果分析困难。因此在回归分析时,特别是当回归结果难 以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重 要的那些自变量,剔出方程,另行回归分析。 对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量 以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避 免共线性指标对结果的影响。
本章我们来交流点什么?
多因素线性回归 多因素logistic回归 多因素COX 回归
本讲学习目标
掌握多因素回归的技巧及注意点
一、多因一果的回归分析方法
比较研究
实验因素与疗效 实验组VS对照组:t检验、卡方、秩和、方差分析
相关性研究
相关分析 回归分析
多因素问题常见情况
常见于观察性研究
横截面研究可以做多因素回归吗?
横截面调查的数据 疾病:心血管病、高血压 相关因素:性别、年龄、红肉Байду номын сангаас均摄入量、吸烟、饮 酒、高血糖、血管弹性指数
固有的因素,理论上和结局时间逻辑明确的因素可以 开展多因素回归分析
多因素回归的注意点
样本量 回归方程中,因素的筛选 多重共线性问题
样本量
线性回归:纳入回归模型变量数的5-10倍 Logistic回归:阳性数纳入模型变量数的5-10倍,总 样本量至少乘以2
删失 手术时的年龄 处理组别(有无手术中放疗)
性别 占位处 胰胆管浸润程度 有无腹膜转移 TNM 分类
变量类型
分类变量的编码
连续 2 分类 连续 2 分类 2 分类 2 分类 有序多分类 2 分类 2 分类
0:死亡、1:删失
0:无术中放疗、1:有术中放疗 0:男、1:女
0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3
Example of complexity in medical study
physical activity
social economic status
eating
drinking
smoking
environment life style
endured glucose
blood pressure
变量说明 患者编号 生存时间(月)
删失 手术时的年龄 处理组别(有无手术中放疗)
性别 占位处 胰胆管浸润程度 有无腹膜转移 TNM 分类
变量类型
分类变量的编码
连续 2 分类 连续 2 分类 2 分类 2 分类 有序多分类 2 分类 2 分类
0:死亡、1:删失
0:无术中放疗、1:有术中放疗 0:男、1:女
匹配 分层 多因素回归 多因素回归+匹配 多因素回归+倾向得分 多因素回归+倾向得分
回归中的混杂因素
混杂因素的识别:
(1)该因素对结局有影响,可利用单因素回归或χ2检验 来验证。 (2)该因素在分析因素中的分布不均衡,可用χ2检验验 证一下。 (3)从专业角度来判断,即该因素不能是分析因素与 结局关系的一个中间环节。也就是说,不能是分析因素 引起该因素,通过该因素再引起结局。这一点主要根据 专业知识来确定。
28
回归案例分析(logistic)
某妇幼保健院采用病例对照研究探索乳腺增生的影响 因素。随机抽取某年在本院就诊的200名乳腺增生患者 及200名非乳腺增生患者,采用问卷调查法对各种可能 的影响因素进行调查,以探索乳腺增生的危险因素。
回归案例分析
因素 乳腺增生 年龄 初产年龄 妊娠次数 流产次数 是否母乳喂养
表 8.2 各因素的变量名及编码表
变量名 Y Age Chage Rs Lc Mr
编码 1=是;0=否 0= <30;1= ≥30 0= <25;1= ≥25 1= 1 次;2= 2 次;3= 3 次及以上 0= 0 次;1= 1 次;2= 2 次及以上 0= 是;1= 否
回归案例分析
1:单因素分析
说明去掉rs后模型更优
含rs模型 rs模型
不含
回归案例分析
初产年龄与母乳喂养可能存在一定的交互效应
为什么mr和chage变得无统计学意义? (注意:即使有统计学意义,也无法反应真实的情况) 一旦模型中加入交互项,变量便不再反映主效应,而是单独效 应。此时mr反映的是chage=0时的效应,同样,chage反映的是 mr=0时的效应。
样本量过少,则导致抽样误差增加,回归模型拟合效 果变差
因素筛选
1. 常见方法 单因素加多因素方法
即单因素回归P值<0.05,<0.1,<0.2的纳入模型分析。 此举是为了减少变量个数,提高拟合效果 最优子集方程法(逐步回归法)
向前法 向后法 逐步法
单因素加多因素逐步回归法
最优方程筛选
(1)前进法
0:死亡、1:删失
0:无术中放疗、1:有术中放疗 0:男、1:女
0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3
0:无、1:有 3:Ⅲ期、4:Ⅳ期
本例目标探讨术中放疗较未放疗是否影响生存,其 它为混杂因素,需要排除混杂干扰
变量名 caseno time censor
age trt sex bui ch p stage
weight
cholesterol
diabetes
coronary heart disease
endogeneous factors
diseases
流行病学多变量分析工具
回归
多因素、多元线性回归 多因素、多元logistic回归 COX 比例风险模型
主成分分析 因子分析 聚类 判别分析 路径分析 结构方程模型
变量名 caseno time censor
age trt sex bui ch p stage
变量说明 患者编号 生存时间(月)
删失 手术时的年龄 处理组别(有无手术中放疗)
性别 占位处 胰胆管浸润程度 有无腹膜转移 TNM 分类
变量类型
分类变量的编码
连续 2 分类 连续 2 分类 2 分类 2 分类 有序多分类 2 分类 2 分类
变量类型
分类变量的编码
连续 2 分类 连续 2 分类 2 分类 2 分类 有序多分类 2 分类 2 分类
0:死亡、1:删失
0:无术中放疗、1:有术中放疗 0:男、1:女
0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3
0:无、1:有 3:Ⅲ期、4:Ⅳ期
举例 关于胰脏癌病人生存时间的研究。该研究的终 点为死亡,探讨术中放疗对生存的影响
0:无、1:有 3:Ⅲ期、4:Ⅳ期
本例目标分析影响生存的多个因素,因素间地位平等
变量名 caseno time censor
age trt sex bui ch p stage
变量说明 患者编号 生存时间(月)
删失 手术时的年龄 处理组别(有无手术中放疗)
性别 占位处 胰胆管浸润程度 有无腹膜转移 TNM 分类
回归案例分析
交互项的进一步解释:
对于母乳喂养的人(mr=0),初产年龄>=25与初产年龄<25岁的 人相比,其效应(参数估计值)为0.2717。 对于非母乳喂养的人(mr=1),初产年龄>=25与初产年龄<25岁 的人相比,其效应(参数估计值)为0.2717+1.4587=1.7304。
回归案例分析
本例结论: 流产次数多是乳腺增生的危险因素,初产年龄和是否 母乳喂养的交互作用对乳腺增生的影响也有统计学意 义。 初产年龄≥25且非母乳喂养的人,其乳腺增生的危险 明显增高。 而单纯初产年龄<25的人,或单纯非母乳喂养的人,发 生乳腺增生的危险并不高。 这提示可针对不同人群开展不同的干预措施。
当混杂混入流行病学
自变量从无到有、从少到多
(2)后退法
先将全部自变量放入方程,然后逐步剔除
(3)逐步法
双向筛选:引入有意义的变量(前进法),剔除无意义 变量(后退法)
24
逐步回归分析的基本思想-拟合效果
线性回归 保证纳入因素后,模型的R2值最大
Logistic等回归方法 AIC值、SC 值或-2 log likelihood值越小好
Epidemiology & Statistics
流行病学资料的多因素回归分析
郑卫军 流行病学与卫生统计学教研室
Example of complexity of medical study
gender
source
???
disease
age
gene
environment SES
health habit
0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3
0:无、1:有 3:Ⅲ期、4:Ⅳ期
COX回归分析结果
多因素回归
多因素线性回归:因变量定量资料 多因素logistic回归:因变量是分类资料(常见二分类) 多因素Poisson回归:因变量是泊松分布资料 多因素COX比例风险模型:因变量是时间生存资料
回归案例分析
单因素分析初步结论:
由于年龄的影响在单因素分析中无统计学意义,且OR 值也较为接近1,在多因素分析中不再考虑年龄因素, 仅对其它4个因素进行分析。
回归案例分析
多因素分析结果:
回归案例分析
多因素分析小结:
为什么rs变得无统计学意义了? 相关分析结果显示,妊娠次数与流产次数具有较强的相关 性(r=0.55,P<0.001)。
探讨多个因素作用模式 分析由于分组不均衡造成存在着混杂因素 实验性研究也可以遇到。
基本的处理方法:多因素回归
举例 关于胰脏癌病人生存时间的研究。该研究的终 点为死亡,包括很多可能影响生存的因素
变量名 caseno time censor
age trt sex bui ch p stage
变量说明 患者编号 生存时间(月)
多因素回归的自变量:可以是定量,也可以是分类资 料
不同方法的应用场合
病例对照研究? 队列研究? 实验性研究?
不同方法的应用场合
线性回归 队列/实验性研究 Logistic回归 病例对照/队列/实验性研究 Poisson回归 队列 COX模型 队列/实验性研究
思考:什么样的设计?采用什么样的方法?
横截面研究可以做多因素回归吗?
横截面调查的数据 疾病:心血管病、高血压 相关因素:性别、年龄、红肉日均摄入量、吸烟、饮 酒、高血糖、血管弹性指数
横截面研究可以做多因素回归吗?
横截面调查的数据 疾病:心血管病、高血压 相关因素:性别、年龄、红肉日均摄入量、吸烟、饮 酒、高血糖、血管弹性指数
哪些因素可以做呢?
如果同时满足这三个条件,基本可以断定是混杂因素。 如果有一条不满足,该因素就不是混杂因素。
回归中的混杂因素
例2:分析性别、吸烟对幽门螺杆菌(HP)的影响,判 断吸烟是否是混杂因素
性别 男
女
吸烟状况
不吸烟 吸烟
不吸烟 吸烟
HP阴性
146 64 2 110
HP阳性
343 178 11 530
例1 某研究者跟踪随访已发病冠心病病人,研究病人的
年龄age、性别sex(0为女性、1为男性)、心电图检验是 否异常ecg(ST段压低、0为正常、1为轻度异常、2为重 度异常)与冠心病ca复发是否有关。
例1 某研究者希望研究病人的年龄age、性别sex(0为女
性、1为男性)、心电图检验是否异常ecg(ST段压低、0 为正常、1为轻度异常、2为重度异常)与冠心病ca发病 是否有关。
27
多重共线性的表现在实际应用中主要表现为:
(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义; (2)偏回归系数估计值的方差很大; (3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归
系数发生较大变化或当一个自变量被引入或剔除时其余变量 偏回归系数有很大变化; (4)偏回归系数估计值的大小与符号可能与事先期望的不一致 或与经验相悖,结果难以解释 出现以上情况,提示存在多重共线性问题,应进行多重共线 性诊断。
回归案例分析
多因素分析小结:
可以设想,妊娠次数对乳腺增生可能并无影响或影响很小, 单因素中的影响可能主要是通过流产次数这一因素起作用 的,当多因素分析中校正了流产次数的影响后,妊娠次数 的影响变得无统计学意义。 将妊娠次数这一变量去掉,重新拟合方程。
回归案例分析
模型中所有变量均有统计 学意义。
与含rs变量的模型相比, AIC和SC均降低,似然比 差别很小。
因素筛选注意事项
如果有变量的引入导致具有关键作用的因子其统计学意义 发生改变(从无到有,或从有到无),必须发现原因!
是否由于样本量过少,变量过多导致 是否存在多重共线性 是否属于混杂因素 是否属于中间变量: 回归模型不能同时纳入影响因素及其
中间变量
26
多重共线性问题
多重共线性是指在进行多因素回归分析时,自变量间存在较强的线 性相关关系。共线关系的存在,可使得估计系数方差加大,系数估 计不稳,结果分析困难。因此在回归分析时,特别是当回归结果难 以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重 要的那些自变量,剔出方程,另行回归分析。 对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量 以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避 免共线性指标对结果的影响。
本章我们来交流点什么?
多因素线性回归 多因素logistic回归 多因素COX 回归
本讲学习目标
掌握多因素回归的技巧及注意点
一、多因一果的回归分析方法
比较研究
实验因素与疗效 实验组VS对照组:t检验、卡方、秩和、方差分析
相关性研究
相关分析 回归分析
多因素问题常见情况
常见于观察性研究
横截面研究可以做多因素回归吗?
横截面调查的数据 疾病:心血管病、高血压 相关因素:性别、年龄、红肉Байду номын сангаас均摄入量、吸烟、饮 酒、高血糖、血管弹性指数
固有的因素,理论上和结局时间逻辑明确的因素可以 开展多因素回归分析
多因素回归的注意点
样本量 回归方程中,因素的筛选 多重共线性问题
样本量
线性回归:纳入回归模型变量数的5-10倍 Logistic回归:阳性数纳入模型变量数的5-10倍,总 样本量至少乘以2
删失 手术时的年龄 处理组别(有无手术中放疗)
性别 占位处 胰胆管浸润程度 有无腹膜转移 TNM 分类
变量类型
分类变量的编码
连续 2 分类 连续 2 分类 2 分类 2 分类 有序多分类 2 分类 2 分类
0:死亡、1:删失
0:无术中放疗、1:有术中放疗 0:男、1:女
0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3
Example of complexity in medical study
physical activity
social economic status
eating
drinking
smoking
environment life style
endured glucose
blood pressure
变量说明 患者编号 生存时间(月)
删失 手术时的年龄 处理组别(有无手术中放疗)
性别 占位处 胰胆管浸润程度 有无腹膜转移 TNM 分类
变量类型
分类变量的编码
连续 2 分类 连续 2 分类 2 分类 2 分类 有序多分类 2 分类 2 分类
0:死亡、1:删失
0:无术中放疗、1:有术中放疗 0:男、1:女
匹配 分层 多因素回归 多因素回归+匹配 多因素回归+倾向得分 多因素回归+倾向得分
回归中的混杂因素
混杂因素的识别:
(1)该因素对结局有影响,可利用单因素回归或χ2检验 来验证。 (2)该因素在分析因素中的分布不均衡,可用χ2检验验 证一下。 (3)从专业角度来判断,即该因素不能是分析因素与 结局关系的一个中间环节。也就是说,不能是分析因素 引起该因素,通过该因素再引起结局。这一点主要根据 专业知识来确定。
28
回归案例分析(logistic)
某妇幼保健院采用病例对照研究探索乳腺增生的影响 因素。随机抽取某年在本院就诊的200名乳腺增生患者 及200名非乳腺增生患者,采用问卷调查法对各种可能 的影响因素进行调查,以探索乳腺增生的危险因素。
回归案例分析
因素 乳腺增生 年龄 初产年龄 妊娠次数 流产次数 是否母乳喂养
表 8.2 各因素的变量名及编码表
变量名 Y Age Chage Rs Lc Mr
编码 1=是;0=否 0= <30;1= ≥30 0= <25;1= ≥25 1= 1 次;2= 2 次;3= 3 次及以上 0= 0 次;1= 1 次;2= 2 次及以上 0= 是;1= 否
回归案例分析
1:单因素分析
说明去掉rs后模型更优
含rs模型 rs模型
不含
回归案例分析
初产年龄与母乳喂养可能存在一定的交互效应
为什么mr和chage变得无统计学意义? (注意:即使有统计学意义,也无法反应真实的情况) 一旦模型中加入交互项,变量便不再反映主效应,而是单独效 应。此时mr反映的是chage=0时的效应,同样,chage反映的是 mr=0时的效应。
样本量过少,则导致抽样误差增加,回归模型拟合效 果变差
因素筛选
1. 常见方法 单因素加多因素方法
即单因素回归P值<0.05,<0.1,<0.2的纳入模型分析。 此举是为了减少变量个数,提高拟合效果 最优子集方程法(逐步回归法)
向前法 向后法 逐步法
单因素加多因素逐步回归法
最优方程筛选
(1)前进法
0:死亡、1:删失
0:无术中放疗、1:有术中放疗 0:男、1:女
0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3
0:无、1:有 3:Ⅲ期、4:Ⅳ期
本例目标探讨术中放疗较未放疗是否影响生存,其 它为混杂因素,需要排除混杂干扰
变量名 caseno time censor
age trt sex bui ch p stage
weight
cholesterol
diabetes
coronary heart disease
endogeneous factors
diseases
流行病学多变量分析工具
回归
多因素、多元线性回归 多因素、多元logistic回归 COX 比例风险模型
主成分分析 因子分析 聚类 判别分析 路径分析 结构方程模型
变量名 caseno time censor
age trt sex bui ch p stage
变量说明 患者编号 生存时间(月)
删失 手术时的年龄 处理组别(有无手术中放疗)
性别 占位处 胰胆管浸润程度 有无腹膜转移 TNM 分类
变量类型
分类变量的编码
连续 2 分类 连续 2 分类 2 分类 2 分类 有序多分类 2 分类 2 分类
变量类型
分类变量的编码
连续 2 分类 连续 2 分类 2 分类 2 分类 有序多分类 2 分类 2 分类
0:死亡、1:删失
0:无术中放疗、1:有术中放疗 0:男、1:女
0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3
0:无、1:有 3:Ⅲ期、4:Ⅳ期
举例 关于胰脏癌病人生存时间的研究。该研究的终 点为死亡,探讨术中放疗对生存的影响
0:无、1:有 3:Ⅲ期、4:Ⅳ期
本例目标分析影响生存的多个因素,因素间地位平等
变量名 caseno time censor
age trt sex bui ch p stage
变量说明 患者编号 生存时间(月)
删失 手术时的年龄 处理组别(有无手术中放疗)
性别 占位处 胰胆管浸润程度 有无腹膜转移 TNM 分类
回归案例分析
交互项的进一步解释:
对于母乳喂养的人(mr=0),初产年龄>=25与初产年龄<25岁的 人相比,其效应(参数估计值)为0.2717。 对于非母乳喂养的人(mr=1),初产年龄>=25与初产年龄<25岁 的人相比,其效应(参数估计值)为0.2717+1.4587=1.7304。
回归案例分析
本例结论: 流产次数多是乳腺增生的危险因素,初产年龄和是否 母乳喂养的交互作用对乳腺增生的影响也有统计学意 义。 初产年龄≥25且非母乳喂养的人,其乳腺增生的危险 明显增高。 而单纯初产年龄<25的人,或单纯非母乳喂养的人,发 生乳腺增生的危险并不高。 这提示可针对不同人群开展不同的干预措施。
当混杂混入流行病学
自变量从无到有、从少到多
(2)后退法
先将全部自变量放入方程,然后逐步剔除
(3)逐步法
双向筛选:引入有意义的变量(前进法),剔除无意义 变量(后退法)
24
逐步回归分析的基本思想-拟合效果
线性回归 保证纳入因素后,模型的R2值最大
Logistic等回归方法 AIC值、SC 值或-2 log likelihood值越小好
Epidemiology & Statistics
流行病学资料的多因素回归分析
郑卫军 流行病学与卫生统计学教研室
Example of complexity of medical study
gender
source
???
disease
age
gene
environment SES
health habit
0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3
0:无、1:有 3:Ⅲ期、4:Ⅳ期
COX回归分析结果
多因素回归
多因素线性回归:因变量定量资料 多因素logistic回归:因变量是分类资料(常见二分类) 多因素Poisson回归:因变量是泊松分布资料 多因素COX比例风险模型:因变量是时间生存资料
回归案例分析
单因素分析初步结论:
由于年龄的影响在单因素分析中无统计学意义,且OR 值也较为接近1,在多因素分析中不再考虑年龄因素, 仅对其它4个因素进行分析。
回归案例分析
多因素分析结果:
回归案例分析
多因素分析小结:
为什么rs变得无统计学意义了? 相关分析结果显示,妊娠次数与流产次数具有较强的相关 性(r=0.55,P<0.001)。
探讨多个因素作用模式 分析由于分组不均衡造成存在着混杂因素 实验性研究也可以遇到。
基本的处理方法:多因素回归
举例 关于胰脏癌病人生存时间的研究。该研究的终 点为死亡,包括很多可能影响生存的因素
变量名 caseno time censor
age trt sex bui ch p stage
变量说明 患者编号 生存时间(月)
多因素回归的自变量:可以是定量,也可以是分类资 料
不同方法的应用场合
病例对照研究? 队列研究? 实验性研究?
不同方法的应用场合
线性回归 队列/实验性研究 Logistic回归 病例对照/队列/实验性研究 Poisson回归 队列 COX模型 队列/实验性研究
思考:什么样的设计?采用什么样的方法?
横截面研究可以做多因素回归吗?
横截面调查的数据 疾病:心血管病、高血压 相关因素:性别、年龄、红肉日均摄入量、吸烟、饮 酒、高血糖、血管弹性指数
横截面研究可以做多因素回归吗?
横截面调查的数据 疾病:心血管病、高血压 相关因素:性别、年龄、红肉日均摄入量、吸烟、饮 酒、高血糖、血管弹性指数
哪些因素可以做呢?
如果同时满足这三个条件,基本可以断定是混杂因素。 如果有一条不满足,该因素就不是混杂因素。
回归中的混杂因素
例2:分析性别、吸烟对幽门螺杆菌(HP)的影响,判 断吸烟是否是混杂因素
性别 男
女
吸烟状况
不吸烟 吸烟
不吸烟 吸烟
HP阴性
146 64 2 110
HP阳性
343 178 11 530
例1 某研究者跟踪随访已发病冠心病病人,研究病人的
年龄age、性别sex(0为女性、1为男性)、心电图检验是 否异常ecg(ST段压低、0为正常、1为轻度异常、2为重 度异常)与冠心病ca复发是否有关。
例1 某研究者希望研究病人的年龄age、性别sex(0为女
性、1为男性)、心电图检验是否异常ecg(ST段压低、0 为正常、1为轻度异常、2为重度异常)与冠心病ca发病 是否有关。
27
多重共线性的表现在实际应用中主要表现为:
(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义; (2)偏回归系数估计值的方差很大; (3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归
系数发生较大变化或当一个自变量被引入或剔除时其余变量 偏回归系数有很大变化; (4)偏回归系数估计值的大小与符号可能与事先期望的不一致 或与经验相悖,结果难以解释 出现以上情况,提示存在多重共线性问题,应进行多重共线 性诊断。
回归案例分析
多因素分析小结:
可以设想,妊娠次数对乳腺增生可能并无影响或影响很小, 单因素中的影响可能主要是通过流产次数这一因素起作用 的,当多因素分析中校正了流产次数的影响后,妊娠次数 的影响变得无统计学意义。 将妊娠次数这一变量去掉,重新拟合方程。
回归案例分析
模型中所有变量均有统计 学意义。
与含rs变量的模型相比, AIC和SC均降低,似然比 差别很小。